﻿BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN UNIVERSITATEA DIN BUCUREȘTI FACULTATEA DE PSIHOLOGIE ȘI ȘTIINȚELE EDUCAȚIEI DEPARTAMENTUL DE ÎNVĂȚĂMÂNT LA DISTANȚĂ BAZELE TEORETICE ALE EVALUARII PSIHOLOGICE ANUL II Prof univ dr NICOLAE MITROFAN Universitatea din București Editura CREDIS 2008 1 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN ■ Acest material este destinat uzulului studenților Universității din București, forma de învățământ la distanță : Conținutul cursului este proprietatea intelectuală a; ; autorului/autorilor; designul, machetarea și transpunerea în ; ■ format electronic aparțin Departamentului de învățământ la • Distanță al Universității din București Universitatea din București Editura CREDIS Bd Mihail Kogălniceanu, Nr 36-46, Corp C, Etaj I, Sector 5 Tel: (021) 315 80 95; (021) 311 09 37, 031 405 79 40, 0723 27 33 47 Fax: (021) 315 80 96 Email: credis@credis ro Http ://www credis ro Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Module: Modulul 1 - Situația psihodiagnosticului în lume și în țara noastră Modulul 2 - Testul psihologic ca mijloc de evaluare Modulul 3 - Caracteristicile psihometrice ale testului psihologic Modulul 4 - Analiza itemului Modulul 5 - Etalonarea și standardizarea testelor Modulul 1 - Situația psihodiagnosticului în lume și în țara noastră Unitatea de învățare 1: Precizări prealabile privind evaluarea psihologică Unitatea de învățare 2: Contribuții la dezvoltarea psihodiagnosticului în secolul XX Unitatea de învățare 3: Tendințe și direcții de dezvoltare a psihodiagnosticului la începutul mileniului III Unitatea de învățare 4 Situația psihodiagnosticului din România în perioada actuală Modulul II - Testul psihologic ca mijloc de evaluare Unitatea de învățare 1: Testul psihologic Unitatea de învățare 2: Clasificarea testelor psihologice Unitatea de învățare 3: Testul psihologic și Codul deontologic Modulul III - Caracteristici psihometrice ale testului psihologic Unitatea de învățare 1: Ce sunt caracteristicile psihometrice ? Unitatea de învățare 2: Fidelitatea testului Unitatea de învățare 3: Validitatea testului Unitatea de învățare 4: Testul psihologic și selecția profesională Modulul IV - Analiza itemului 2 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare 1: Ce este analiza itemului ? Unitatea de învățare 2: Gradul de dificultate al itemului Unitatea de învățare 3: Capacitatea de discriminare a itemului Modulul V - Etalonarea și standardizarea testelor Unitatea de învățare 1: Definirea conceptelor și etapele construirii testului Unitatea de învățare 2: Modele de scale utilizate în etalonare și standardizare 3 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN MODULUL I SITUATIA PSIHODIAGNOSTICULUI ÎN LUME SI ÎN ȚARA NOASTRĂ 4 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Bazele teoretice ale evaluării psihologice Module: Modulul 1 - Situația psihodiagnosticului în lume și în țara noastră Modulul 2 - Testul psihologic ca mijloc de evaluare Modulul 3 - Caracteristicile psihometrice ale testului psihologic Modulul 4 - Analiza itemului Modulul 5 - Etalonarea și standardizarea testelor Modulul 1 - Situația psihodiagnosticului în lume și în țara noastră Unitatea de învățare 1: Precizări prealabile privind evaluarea psihologică Unitatea de învățare 2: Contribuții la dezvoltarea psihodiagnosticului în secolul XX Unitatea de învățare 3: Tendințe și direcții de dezvoltare a psihodiagnosticului la începutul mileniului III Unitatea de învățare 4 Situația psihodiagnosticului din România în perioada actuală Modulul II - Testul psihologic ca mijloc de evaluare Unitatea de învățare 1: Testul psihologic Unitatea de învățare 2: Clasificarea testelor psihologice Unitatea de învățare 3: Testul psihologic și Codul deontologic Modulul III - Caracteristici psihometrice ale testului psihologic Unitatea de învățare 1: Ce sunt caracteristicile psihometrice ? Unitatea de învățare 2: Fidelitatea testului Unitatea de învățare 3: Validitatea testului 5 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare 4: Testul psihologic și selecția profesională Modulul IV - Analiza itemului Unitatea de învățare 1: Teoria răspunsului la item Unitatea de învățare 2: Gradul de dificultate al itemului Unitatea de învățare 3: Capacitatea de discriminare a itemului Modulul V - Etalonarea și standardizarea testelor Unitatea de învățare 1: Definirea conceptelor Unitatea de învățare 2: Etapele etalonării și standardizării testului psihologic Unitatea de învățare 3: Modele de scale utilizate în etalonare și standardizare 6 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Câteva precizări prealabile Iată, așadar, o nouă disciplină cu care veți face cunoștință încă de la începutul anului II Ea are un titlu tentant, desigur evaluarea psihologică a individului uman deci, vom putea să măsurăm pe cineva și să aflăm cum „stă” în legătură cu diferite componente ale personalității Vom ști cât este de inteligent, cât este de creativ, cât este de emotiv, cât este de sociabil, cât este de echilibrat, ce fel de temperament are, ce trăsături caracteriale are, cât de dezvoltate îi sunt anumite aptitudini etc ,etc Putem să ne pronunțăm asupra cuiva în legătură cu coeficientul de inteligență (QI), coeficientul de dezvoltare (QD), coeficientul de creativitate (QKre), coeficientul emoțional (QE), coeficientul de personalitate (QP) etc Păi, nu este formidabil să avem asemenea posibilități noi psihologii ? Evident că da și pentru a face diverse evaluări putem apela la mai multe metode și mijloace, însă noi ne vom concentra , mai ales, asupra testelor psihologice Nu există sector al activității umane în care să nu fie necesară realizarea evaluării psihologice cu ajutorul testelor Acestea sunt extrem de multe (unii autori apreciază că ar fi vorba de zeci de mii în lume), însă ele pot fi grupate în diferite categorii, în funcție, în special de obiectivul urmărit în evaluare Există însă și anumite pericole dar nu dorim să speriem pe nimeni încă de la început Un pericol ar fi cel legat de utilizarea necorespunzătoare a testului Ar fi ca și cum am folosi un cântar defect pentru a stabili greutatea cuiva Fiind defect, într-o zi ar arăta o anumită greutate, în altă zi, o greutate total diferită Revenind în domeniul psihologiei, folosind, de exemplu, în mod greșit un test de inteligență, s-ar putea ca, la o primă testare, subiectul să apară ca fiind genial și, la o altă testare, el să apară ca fiind deficient intelectual Un alt pericol ar fi cel al, zicem noi, delegării de răspundere, adică psihologul conferă putere absolută testului, el neavând niciun fel de implicare în analizarea și, mai ales, interpretarea rezultatelor De aceea, un mare psiholog, pe nume L Szondi, a prevenit pe toți psihologii, din toate domeniile aplicative, spunându-le: „face mai mult un psiholog fără teste, decât mai multe testefără psiholog” Poate că nu înțelegeți exact ce a vrut să spună acest autor celebru, dar eu vă rog mult să-i rețineți spusele, deoarece, dacă veți practica psihologia, va trebui, cu siguranță, să vi le amintiți mereu Revenind la pericole, exită și multe altele, dar nu dorim să le expunem pe toate încă de pe acum Ele vor reieși după ce veți parcurge toate modulele și, mai ales, după ce vă veți întâlni direct cu diferite categorii de teste Am mai avea, însă o mare rugăminte Să nu dați uitării ce ați învățat în anul I, mai ales la statistica aplicată în psihologie Știm, știm foarte bine că cei care vin spre domeniul psihologiei nu s-au manifestat prea pozitiv față de matematică și, în general, față de științele exacte Din nefericire însă pentru ei, la psihologie, încă din anul I apare statistica iar despărțirea de ea este considerată de unii ca fiind pentru totdeauna Evaluarea psihologică, psihodiagnosticul, mai ales, presupune cunoașterea și utilizarea unor elemente de statistică, așa că, rugăm încă o dată să căutați sursele de informare și să vă reactualizați cunoștințele privind statistica aplicată în psihologie Și dacă ne-am înțeles până aici, vă propunem să ne apropiem de modulele pe care le oferim, începând, desigur, cu MODULUL I Vă dorim mult succes !!! 7 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Modulul 1 - Situația psihodiagnosticului în lume și în țara noastră Unitatea de învățare nr 1 Precizări prealabile privind evaluarea psihologică Cuprins: 1 1 Delimitări conceptuale 1 2 De când a început, de fapt, evaluarea psihologică ' 1 3 Cine este considerat părintele psihodiagnosticului Obiective: La sfârșitul acestei unități de învățare studenții vor fi capabili să: • definească corect noțiunea de evaluare psihologică • să diferențieze evaluarea psihologică științifică de cea empirică • cunoască ce criterii utilizăm pentru a stabili marile perioade de evoluție a evaluării psihologice • cunoască unele dintre cele mai vechi preocupări privind evaluarea psihologică • cunoască cine este considerat părintele psihodiagnosticului 1 1 Delimitări conceptuale Există, într-adevăr, mai multe concepte care sunt folosite pentru a evidenția posibilitatea de măsurare și cunoaștere a diferitelor aspecte și componente ale vieții psihice Am putea enumera câteva: evaluarea psihologică, psihodiagnoza, măsurarea psihologică, testarea psihologică În literatura anglo-saxonă, pe care noi, la această disciplină, ne bazăm în cea mai mare măsură, sunt frecvent utilizați termenii: psychological testing (testarea psihologică), psychological assessment (măsurare psihologică) și, mult mai rar, psychological evaluation (evaluare psihologică) Desigur, nu sunt diferențe foarte mari între înțelesurile și sensurile acestor concepte Ceea ce 8 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN este comun pentru toate este faptul că acționăm asupra individului (subiectului) cu anumite metode, mijloace, instrumente în vederea obținerii unor informații privind diferite aspecte și componente ale psihismului Psihodiagnoza este acțiunea de aplicare a testelor, care, la rândul lor, au obiective foarte precise Avem nevoie să cunoaștem nivelul de dezvoltare intelectuală, aplicăm teste de inteligență, avem nevoie să cunoaștem nivelul de dezvoltare a capacităților mnezice, aplicăm teste de memorie ș a m d Deci, noțiunile de testare psihologică și de psihodiagnostic au cam același înțeles Măsurarea psihologică înseamnă ceva mai mult decât testarea psihologică, deoarece ea se poate face folosind nu numai testele psihologice, ci și alte modalități de măsurare, cum este cazul diferitelor scale de măsurare a opiniilor, atitudinilor etc Evaluarea psihologică, cel puțin după părerea noastră, implică acțiunile de testare și de măsurare dar nu se rezumă numai la acestea, ci, în mod obligatoriu, ea necesită acțiunile de interpretare a rezultatelor, de integrare a lor într-un set de informații care să descrie cât mai corect și cât mai exact situația subiectului Deci, deși nu în exclusivitate, testarea și măsurarea psihologică se centrează mai mult asupra aspectelor de ordin cantitativ, în timp ce evaluarea psihologică se centrează mai mult asupra aspectelor de ordin calitativ În general, evaluarea psihologică se finalizează cu un Raport în cadrul căruia regăsim incluse rezultatele examinării sau măsurării psihologice (de exemplu, coeficientul de inteligență - QI = 125) dar și: a) judecăți apreciative privind starea subiectului (normală, anormală, deficitară etc ); b) conturarea unor cauze care au dus la apariția acelei stări; c) formularea unor recomandări privind acțiunile ce se impun în legătură cu subiectul (acțiuni educațional-recuperative, psihoterapeutice etc ) Așadar, dintre toate noțiunile luate în discuție, evaluarea psihologică pare a avea sfera cea mai mare, deși, trebuie să recunoaștem că, în literatura de specialitate, nu există un consens referitor la utilizarea acestui concept De altfel, nici noi, în cadrul acestei discipline, nu vom utiliza predominant noțiunea de evaluare psihologică, deoarece interesul central al nostru va fi orientat către locul și rolul pe care îl ocupă testele psihologice în activitatea psihologului Să vedem acum ce diferențe există între alte două noțiuni pe care le întâlnim frecvent: psihodiagnostician și psihotehnician Lucrurile nu sunt foarte complicate, important este să le înțelegem bine Psihodiagnosticianul este persoana abilitată să aplice testele și să elaboreze Raportul final de evaluare Deci, psihodiagnosticianul este cel care face, de fapt, evaluare psihologică El are, obligatoriu, pregătire academică (în cadrul departamentelor de psihologie), la care se adaugă o îndelungată activitate practică Sunt unele teste extrem de complexe, care necesită mult timp pentru formare, ceea ce înseamnă că nu este suficientă doar activitatea de familiarizare din timpul anilor de studenție Este cazul, după cum o să vedeți, a unor teste de personalitate, a unor teste de inteligență, a unor teste proiective Psihotehnicianul este cel care învață să aplice bine și corect anumite teste și, bineînțeles, este vorba tot despre testele complexe Rezultatele obținute le înaintează specialistului, psihodiagnosticianului, 9 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN abținându-se de la orice fel de prelucrare și, mai ales, interpretare În practică, psihotehnicianul poate fi și o persoană care nu are pregătire în domeniul psihologiei, dar care a învățat să aplice un test sau mai multe teste respectând strict cerințele din cadrul manualelor acestor instrumente psihodiagnostice Să mai spunem câteva cuvinte și în legătură cu noțiunea de testare Ea a căpătat în ultimul timp o extindere foarte mare, fiind întâlnită în multe domenii, cu înțelesul de verificare De exemplu, în domeniul tehnic, vorbim de acțiunea de testare a unor materiale, a unor motoare, a unor mijloace de transport etc În domeniul medical-farmaceutic, vorbim de testarea unor medicamente, a unor substanțe, a unor instrumente etc În domeniul aeronautic și cosmic vorbim de testarea unor aeronave, a unor rachete Nu în ultimul rând, în domeniul militar, se vorbește despre testarea unor arme noi, a unor noi mijloace de comunicare, de simulare etc În domeniul psihologiei, acțiunea de testare nu se rezumă doar la cea de verificare, ci ea are un înțeles destul de diferit, după cum, de altfel, am spus mai sus De aceea, este bine ca să fie folosite permanent sintagmele test psihologic și testare psihologică, tocmai pentru a păstra specificul acestora și a le feri de unele confuzii sau limitări Trebuie, de asemenea, să facem o diferențiere clară a ceea ce înseamnă evaluare psihologică empirică și evaluare psihologică științifică Cea empirică este de tip impresiv, „ochiometric” după cum spun unii, adică se bazează pe rezultatele cunoașterii nemijlocite, directe, apelând la simțuri Subiectul X este ceea ce „văd” că este sau ceea ce face Multi părinti spun, cu convingere, că își cunosc foarte bine proprii copii, cadrele didactice, de asemenea, vor afirma, cu tărie, că își cunosc bine elevii cu care lucrează Și nu au dreptate ? Ar fi nedrept din partea noastră să folosim un „Nu” categoric Problema este că un asemenea mod de a cunoaște și de a evalua prezintă multe riscuri, deoarece, frecvent, intervine subiectivismul evaluatorului, adică, în actul evaluării intervin factori ce țin de psihologia și de personalitatea acestuia De regulă, părinții au o imagine mult mai pozitivă despre copiii lor decât sunt aceștia în realitate În cazul lor, factorul principal care intervine ține de afectivitatea manifestată față de copii (și nu trebuie să fie, neapărat, criticați pentru aceasta) Evaluarea psihologică științifică are, înainte de toate, un caracter obiectiv, deoarece ea se bazează pe utilizarea unor mijloace științifice, cum este cazul testelor psihologice Informația recoltată cu ajutorul lor trebuie să aibă prioritate în cunoașterea și evaluarea psihologică a subiectului Numai cunoscând adevărata realitate psihologică putem să ne pronunțăm asupra faptului dacă aceasta este echilibrată, normală sau, dimpotrivă, ea necesită intervenții de tip educațional, recuperator sau psihoterapeutic Temă de reflecție/autoevaluare: Enumerați mai multe consecințe posibile ale utilizării exclusive de către cadrul didactic a evaluării psihologice empirice 1 2 De când a început, de fapt, evaluarea psihologică ? Este greu de precizat exact, însă ea a început, sigur, cu foarte mulți ani înainte 10 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN de apariția psihologiei ca știință Evaluările psihologice erau făcute mai ales în scopuri „juridice”, adică de a determina dacă cel învinuit spune sau nu adevărul referitor la o anumită faptă Mijloacele folosite (să zicem, pe post de „teste”) erau rudimentare și, uneori, extrem de dure și de agresive Putem menționa câteva: - cel învinuit trebuia să atingă foarte repede cu limba un obiect înroșit în foc Dacă rămâneau urme, acestea constituiau dovada că respectivul este adevăratul vinovat; - acuzatul trebuia să înghită foarte repede o anumită cantitate de orez fiert și dacă reușea, era absolvit de vinovăție; - mai mulți suspecți erau pusi in linie și lăsați mai mult timp să privească un același obiect și cel care se înroșea cel mai mult la față era considerat vinovat Mai mulți autori (Gregory, 1996; Stan, A , 2002) arată că unele forme rudimentare ale testării psihologice le putem regăsi în serviciile publice ale Chinei antice încă din anul 2200 î e n Funcționarii erau supuși, la fiecare trei ani, unei forme de examinare, urmărindu-se gradul de potrivire al acestora cu „cerințele” postului pe care îl ocupau Pe măsură ce trecea timpul se producea și o îmbunătățire a modului de examinare, astfel că, începând cu anul 202 î e n , pe timpul dinastiei Han a fost introdus un examen scris la mai multe materii și anume: legislație civilă, probleme militare, agricultura, fiscalitatea și geografia Având în vedere vremurile la care se face trimitere, trebuie să apreciem, totuși, ingeniozitatea celor care au creat un fel de sistem de selecție în trepte: a) examinarea preliminară, sarcina subiecților fiind aceea de a compune un poem în baza unei teme oferite, fiind obligați să stea o zi și o noapte într-o cameră relativ mică Procentele de reușită se înscriau între 1 și 7; b) cei reușiți în prima etapă treceau la o nouă fază, numită „district de examinare”; aici gradul de examinare și evaluare a candidaților era mult mai dificil, aceștia fiind supuși, timp de 3 zile și 3 nopți, la 3 sesiuni separate Și aici, procentul de reușită era destul de mic și anume, între 1 și 10; c) a treia și ultima fază avea loc la Pekin 3% dintre candidați reușeau să depășească și această fază, primind titlul de mandarin, ceea ce însemna că avea dreptul să fie ales pentru poziția de înalt funcționar public Ce urmărea, de fapt, acest sistem de „selecție profesională”, deși această sintagmă nu era folosită în acele vremuri ? In primul rând, depistarea unor „capacități” sau a unor „aptitudini” necesare pentru ocuparea unui post de funcționar public Era vorba, mai ales, despre frumusețea scrisului și claritatea exprimării, condiții de bază pentru a asigura o bună comunicare Deci, pe baza acestor însușiri se putea face predicții privind eficiența în exercitarea funcțiilor publice Problema formelor de examinare și evaluare psihologică utilizate înainte ca psihologia să devină știință a preocupat pe mai mulți autori Astfel, putem aminti exemplele oferite de către profesorul german Hofstăter, P , 1971 (apud Stan, A , 2002): a) în riturile de inițiere ale societăților primitive erau folosite anumite probe prin intermediul cărora se stabilea dacă cei investigați, în special tinerii, erau în posesia unor capacități necesare pentru asumarea responsabilităților specifice adulților, cum ar fi: curajul, stăpânirea de sine, calitățile raționamentului; b) în scrierile lui Platon, dedicate statului, se regăsesc precizări privind modul în care erau recrutați războinicii în 11 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN comunitatea ideală, aceștia trebuind să dovedească, mai ales, autodisciplină, curaj, incoruptibilitate Deși aceste prime forme de evaluare psihologică sunt departe de cerințele de ordin științific de care trebuie să țină seama cei care se ocupă de selecția profesională în zilele noastre, trebuie să apreciem faptul că ele și-au dovedit utilitatea în acele vremuri și, pe de altă parte, au influențat pe cei care, ulterior, s-au ocupat în mod serios de problema mijloacelor folosite După cum vom vedea mai târziu, testul psihologic nu este echivalent cu „punerea la încercare” a subiectului În baza rezultatelor obținute se fac predicții în legătură cu comportamentul subiectului Temă de reflecție/autoevaluare: Care ar fi consecințele dacă și astăzi s-ar utiliza în activitatea de evaluare psihologică numai proba „punerii la încercare” a subiectului ? 1 3 Cine este considerat părintele psihodiagnosticului ? Deși foarte mulți psihodiagnosticieni îl consideră pe A Binet „părintele psihometriei”, în special datorită faptului că el a construit, în 1905, împreună cu T Simon, prima „scală metrică a inteligenței”, în mai toate manualele și tratatele privind testarea psihologică anul de naștere al psihodiagnozei este considerat a fi 1890 În acel an, James McKeen Cattell a publicat, în revista Mind, articolul „Mental Tests and Measurements” Ar însemna, normal, că acest autor ar fi „părintele” testelor și, respectiv, al psihometriei Dar asemenea preocupări privind paternitatea unor termeni nu prea își au rostul, deoarece psihometria are o istorie mult mai complexă, înainte de sfârșitul secolului al XIX-lea și începutul secolului XX mulți autori având, prin activitatea intensă desfășurată, o parte de contribuție la crearea acestui domeniu extrem de important, dar și foarte controversat al științei psihologice I-am putea aminti, în acest sens, pe Fr Galton, Ernst Weber, Gustav Fechner, Herman Helmholtz ș a Desigur, nu-l putem uita pe Wilhelm Wundt, cel care a înființat primul laborator de psihologie experimentală, la Leipzig, în 1879 El a folosit, de altfel, pentru prima dată termenul de „psihometrie”, publicând articolul „Psychometrics Experiments” în revista Brain James McKeen Cattell a fost studentul lui W Wundt la Leipzig, ocupându-se în cadrul tezei sale de doctorat, de diferențele individuale privind timpul de reacție După terminarea tezei a predat la Bryn Mawr și la Universitatea din Pennsylvania, întorcându-se apoi în Europa pentru a preda la Universitatea din Cambridge Aici l-a întâlnit pe Fr Galton, întâlnire ce-l va marca pentru toată perioada de după întoarcerea sa în SUA, mai întâi, la Universitatea din Pennsylvania și, apoi, la Universitatea Columbia Meritele sale sunt multiple: pe lângă faptul că a pus bazele mai multor publicații, cum ar fi Psychological Review, Science, American Men of Science, James McKeen Cattell a fundat și celebra „The Psychological Corporation” Printre studenții înscriși la docotorat sub conducerea sa există și câteva nume celebre astăzi: E L Thorndike (1898), care a avut mari contribuții la dezvoltarea teoriilor 12 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN învățării și, totodată, la dezvoltarea psihologiei educaționale; R S Woodworth (1899), care a publicat în 1938 unul dintre cele mai cunoscute și mai influente tratate de Psihologie experimentală ; E K Strong (1911), autorul testului Vocational Interest Blank, rămas în uz și astăzi, după ce a fost revizuit Un alt doctorand al său, deși din nefericire mai puțin cunoscut, a fost Clark Wissler (1901), cel care, după unii autori (Gregory, 1996), a avut o influență covârșitoare asupra istoriei timpurii a testării psihologice El a reușit să coreleze scorurile la un test mintal aplicat unui număr de peste 300 de studenți de la Columbia University și Barnard College cu rezultatele lor academice Intenția lui era aceea de a demonstra că rezultatele la test pot fi folosite pentru prognozarea performanței academice, însă cercetările efectuate nu au confirmat așteptările sale Odataă cu publicarea, în 1901, a unor asemenea rezultate descurajatoare, psihologii experimentali au renunțat la utilizarea timpului de reacție (RT) și a discriminării senzoriale ca instrumente de măsură a inteligenței După cum o să vedeți și la alte discipline, timpul de reacție este un indicator al manifestărilor temperamentale și nu al inteligenței Printre studenții lui W Wundt s-au numărat și alte nume sonore ale psihologiei universale și anume: Charles Spearman, Victor Henri, Emil Kraepelin, E B Titchener, G Stanley Hall, Lightner Witmer Spearman este creditat ca fiind cel ce a creat conceptul psihometric de fidelitate a testului (test reliability) Francezul Victor Henri a colaborat cu A Binet, sugerând modul în care pot fi utilizate testele mintale pentru a măsura procesele mintale înalte E Kraepelin, de formație psihiatru, a fost primul experimentator al tehnicii asocierii verbale în calitate de test formal Leightner Witmer, după ce și-a luat doctoratul la Leipzig, reîntors în SUA, a devenit succesorul lui James McKeen Cattell la postul de director al Laboratorului de psihologie din cadrul Universității Pennsylvania În 1897 el a înființat prima clinică psihologică din America, tot la Universitatea din Pennsylvania, iar în 1907 a scos revista Psychological clinic, în cadrul căreia a publicat articolul „Clinical Psychology” În felul acesta el a devenit „părintele” psihologiei clinice, deși este puțin cunoscut în această calitate (McReynolds, 1987) În afară de psihologi, cei care au contribuit foarte mult, chiar dacă nu direct, la crearea psihometriei sunt filosofii Este vorba de o serie de lucrări apărute în secolele XVII, XVIII și XIX, care cuprind idei ce vor influența foarte mult cercetările și formulările din domeniul științelor comportamentale (Gregory, 1996) Astfel, filosoful și matematicianul Rene Descartes s-a ocupat mult de problema modului în care sunt relaționate procesele mentale și procesele fizice John Locke, în lucrarea An Essay Concerning Human Understanding, își expune punctul de vedere conform căruia cunoștințele provin din experiență, idee pe care o regăsim și în lucrările altor „empirici britanici”: A treatise Concerning the Principles of Human Knowledge (George Berkeley); A treatise on Human Nature (David Hume); Observations on Man, his Frame, his Duty and his Expectations (David Hartley) Christian von Wolff a publicat două lucrări, Psychologica empirica (1732) și Psychologica rationalis (1734), prin intermediul cărora lansează termenul „psihologie” De 13 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN asemenea, după unii autori (Cohen et al , 1996), el este primul care concepe psihometria ca știință Indiferent însă de disputele privind „paternitatea” unei noțiuni sau a alteia, putem afirma că, în perioada ultimelor două secole ale mileniului II, s-a produs, în domeniul psihologiei, un salt extraordinar prin promovarea metodelor cantitative în știința psihologică Deci, fenomenele psihice, prin excelență subiective, pot fi măsurate și evaluate matematic S-a răspuns în felul acesta uneia dintre cele mai serioase acuze datorită căreia psihologiei nu i s-a acceptat mult timp statutul de știință Nu știm, astăzi, cât de mult au înțeles acest lucru contemporanii perioadei la care facem referire, însă noi, la mai bine de un secol de atunci, nu putem să nu ne exprimăm recunoștința față de toți cei care au contribuit la realizarea acestei „construcții” extrem de importante pentru evoluția ulterioară a psihologiei: psihometria Temă de reflecție/autoevaluare: De ce este dificil să susținem faptul că există un singur „părinte” al psihometriei sau a psihodiagnosticului ? Întrebări de autoevaluare 1 2 3 4 5 6 7 8 9 Ce înțelegem prin termenul de psihodiagnoză ? Ce înțelegem prin termenul de evaluare psihologică ? Care sunt noțiunile, ce se referă la evaluarea psihologică , vehiculate mai frecvent în literatura de specialitate ? Prin ce se deosebește un psihodiagnostician de un psihotehnician ? De ce psihologul trebuie să promoveze în mod consecvent evaluarea psihologică științifică ? Care sunt cele mai vechi forme ale testării psihologice ? Ce putem reproșa celor care utilizau asemenea forme ? Cui putem acorda „paternitatea” conceptului de psihometrie ? Care sunt meritele principale ale lui A Binet privind dezvoltarea psihometriei ? 10 Care sunt meritele principale ale lui James McKeen Cattell privind dezvoltarea psihometriei ? 11 Care sunt contribuțiile lui W Wundt și ale doctoranzilor săi la dezvoltarea psihodiagnosticului ? 12 Cu ce au contribuit și unii filosofi la dezvoltarea psihometriei ? 13 Ați putea să precizați care este locul și rolul testelor în selecția profesională ? BIBLIOGRAFIE MINIMALĂ ALBU, M (2000) Metode și instrumente de evaluare în psihologie, Cluj-Napoca: Argonaut MITROFAN, N (2001), Psihometria și direcțiile ei de dezvoltare la început de mileniu În ZLATE M (coord ), Psihologia la răspântia mileniilor Iași: Polirom SCHIOPU, U (2003), Introducere în psihodiagnostic București: Editura Pro-Humanitas STAN, A (2002) Testulpsihologic Evoluție, construcții, aplicații Iași: Polirom GREGORY, R J (1996) Psychological testing History, Principles, and Applications Needham 14 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Heights: Allyn & Bacon COHEN, R J et al (1996) Psychological Testing and Assessment An Introduction to Tests and Measurement Mayfield Publishing Company, Mountain View, ed a 3-a 15 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare nr 2 Contribuții la dezvoltarea psihodiagnosticului în secolul XX Cuprins: 2 1 Testele de inteligență 2 2 Testele de personalitate 2 3 Testele de aptitudini 2 4 Testele de achiziții 2 5 Modele de testare clinică Obiective: La sfârșitul acestei unități de învățare studenții vor fi capabili să: • cunoască principalele contribuții privind testele de inteligență • cunoască principalele contribuții privind testele de personalitate • cunoască principalele contribuții privind testele de aptitudini • cunoască principalele contribuții privind testele de achiziții • cunoască principalele contribuții privind testele folosite în clinică • evalueze critic toate contribuțiile privind psihodiagnoza de până la sfârșitul sec XX 2 1 Testele de inteligență Printre primele teste care au apărut la începutul secolului XX au fost testele de inteligență După ce A Binet și colaboratorul său, T Simon, au creat prima „scală metrică a inteligenței”, ce cuprindea 30 de itemi, destinată identificării copiilor școlari retardați mintal din Paris, s-a produs o intensificare fără precedent a interesului practicienilor pentru aceste instrumente Ele vor fi aplicate în școli, închisori, tribunale pentru copii etc Testul lui Binet a fost supus unor multiple revizuiri și traduceri, atât în Europa, cât și, mai ales, în America Revizuirea făcută de L Terman, în 1916, conferă acestui test denumirea de Stanford-Binet Intelligence Scale (Scala de inteligență Stanford-Binet) Testul lui Binet a fost un test individual, însă odată cu declanșarea primului război mondial a apărut cerința creerii unor teste care să poată fi aplicate pe grupuri mai mari de subiecți și într-un timp mai scurt Așa au apărut testele de grup pentru abilitățile umane (the Army Alpha și the Army Betha), create de un colectiv de psihologi avându-l în frunte pe Roberet Yerkes, care deținea și funcția de președinte al Asociației Psihologilor Americani 16 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Odată cu apariția testelor de grup, a crescut interesul și pentru alte categorii de teste, cum ar fi testele de aptitudini, testele de achiziții, testele de interese, testele de personalitate, deși distincția dintre ele nu era întotdeauna ușor de făcut Cu puțin înainte de declanșarea celui de-al doilea război mondial, mai exact în 1939, David Wechsler a publicat prima versiune a Scalelor de inteligență Wechsler, și anume, The Wechsler-Bellevue Intelligence Scale (W-B), moment de cotitură în psihometrie, deoarece aducea unele noutăți în ceea ce privește testarea inteligenței Astfel, printre altele, spre deosebire de testul Stanford-Binet, care permitea calcularea doar a unui scor QI, acest nou instrument psihodiagnostic făcea posibilă calcularea mai multor scoruri și, totodată, stabilirea profilului individual ca urmare a combinării abilităților Ca o noutate absolută apare posibilitatea calculării QI performanță Cele două mari baterii de inteligență au fost supuse unor revizuiri repetate, fiecare dintre ele având ca obiectiv de bază îmbunătățirea caracteristicilor lor psihometrice Ele s-au impus, în practica psihodiagnostică, ca cele mai de valoare teste, gradul de încredere acordat rezultatelor obținute cu ajutorul lor fiind maximal De altfel, ele au fost preluate, traduse și standardizate în foarte multe țări, inclusiv în țări din Europa Temă de reflecție/autoevaluare: Care sunt asemănările și care sunt deosebirile dintre cele două mari baterii de inteligență: Stanford-Binet și Wechsler-Bellevue ? 2 2 Testele de personalitate După al doilea război mondial încep să prolifereze testele de personalitate, care își propun să măsoare diferite trăsături considerate a fi „dispoziții relativ de durată care diferențiază un individ de altul” (Kaplan și Saccuzzo, 1993) De altfel, primul test de personalitate a fost elaborat în timpul primului război mondial, purtând numele de Woodworth Personal Data Sheet (Gregory, 1996) Fiind publicat în formă finală după război, acest test devine reprezentativ pentru categoria de teste structurate de grup gen „creion-hârtie” Aceste teste erau prevăzute cu răspunsuri de tip „Adevărat/Fals” sau cu răspunsuri multiple la alegere, ceea ce făcea ca ele să poată fi aplicate pe grupuri mari de subiecți Interesul pentru asemenea tipuri de teste a scăzut mult până în anii '30 - '40, pentru ca, după cel de-al doilea război mondial, să crească din nou În 1921, în Europa, mai exact în Elveția, Herman Rorschach a publicat testul ce-i poartă numele, Testul Rorschach, deschizând astfel calea pentru o nouă categorie de teste și anume, testele proiective Testul a fost introdus în America de către David Levy mult mai târziu, fiind primit cu multă circumspecție Abia după ce un student al lui Levy, Sam Beck i-a investigat științific proprietățile și a comunicat rezultatele în cadrul tezei sale de doctorat, s-a produs o creștere rapidă a intersului pentru acest test și, apoi, pentru testele proiective Una dintre dovezi o constituie dezvoltarea, în 1953, de către Henry Murray și Christina Morgan a testului numit the Tematic Apperception Test (TAT), mult mai structurat decât testul Rorschach În 17 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 1928, A F Payne a propus tehnica completării frazei, care consta, în principiu, în a oferi subiectului un început de frază (o “rădăcină”), de exemplu: “Sunt foarte preocupat când ”, acesta vând sarcina de a completa fraza respectivă O altă contribuție remarcabilă legată de categoria testelor proiective a avut-o F L Goodenough, care a încercat să determine nu numai nivelul intelectual, ci și interesele și trăsăturile de personalitate ale copiilor pe baza analizei desenelor acestora Dar o variantă mult mai bine structurată și standardizată a testelor “de desen” a apărut în anul 1948, sub denumirea Testul House-Tree-Person și legată de numele lui J Buck În Europa testarea proiectivă era dominată de Testul Szondi, elaborate de L Szondi, psihiatru elvețian de origine maghiară Referitor la conținutul testului, acesta consta din 48 de fotografii ale unor pacienți psihiatri, împărțite în 6 seturi cuprinzând următoarele 8 tipuri: homosexual, epileptic, sadic, isteric, catatonic, paranoic, maniac și depresiv In concepția autorului tulburările psihiatrice majore sunt cauzate de gene recesive Un alt autor, S Deri a adus acest test in SUA însă a renunțat la explicațiile lui Szondi După opinia lui alegerea fotografiilor s-ar datora identificării inconștiente a subiectului cu caracteristicile pacienților fotografiați Un moment crucial în evoluția testelor de personalitate îl reprezintă dezvoltarea, în anul 1943, a Inventarului Multifazic de Personalitate Minnesota (Minnesota Multiphasic Personality Inventory - MMPI) Spre deosebire de testele de personalitate structurate, de genul testului Woodworth, autorii testului MMPI au argumentat că înțelesul răspunsurilor la test poate fi determinat prin cercetări empirice După aproape o jumătate de secol de utilizare, MMPI va apărea într-o nouă versiune, respective, MMPI-2 (Butcher, 1989, 1990) În toată această perioadă el s-a impus ca unul dintre cele mai utilizate teste de personalitate, în legătură cu el fiind elaborate multe mii de lucrări Un alt test de personalitate celebru, care a fost dezvoltat în același context al răspunderii pentru cercetarea empirică, a apărut în 1957, sub denumirea California Psychological Inventory (CPI) Deoarece variantele originale ale testelor MMPI și CPI se confruntau cu unele probleme psihometrice semnificative, revizuirea lor - pentru MMPI, în 1986, iar pentru CPI, în 1987 - a făcut ca aceste probleme să fie înlăturate, testele căpătând o largă utilizare nu numai în SUA, ci în mai multe țări ale lumii Tot cam în aceeași perioadă cu MMPI a apărut și testul 16 PF Cattell (the Sixteen Personality Factor), dezvoltat de către R B Cattell și care rămâne de a lungul timpului un bun exemplu de test de personalitate bine strucuturat și care este bazat pe metoda analizei factoriale O altă categorie de teste a fost creată pentru orientarea și consilierea persoanelor Amintim, mai întâi, Inventarul de interese, care își avea originea în studiul lui R L Thorndike (1912), efectuat pe un lot de 100 de studenți În perioada 1919-1920 Yoakum a dezvoltat o bază de 1000 de itemi privind interesele din copilărie și până la maturitatea timpurie (Dubois, 1970) O mare parte din acești itemi au fost încorporați în Carnegie Interest Inventory, 18 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN test care a fost supus, de către K M Cowdery, timp de doi ani, respectiv, 1926-1927, la mai multe îmbunătățiri, cum ar fi, de exemplu: creșterea numărului de itemi, compararea răspunsurilor a 3 grupe-criteriu (medici, ingineri și juriști) cu grupe de control cuprinzând neprofesioniști Edward K Strong a revizuit testul lui Cowdery și timp de 36 de ani s-a ocupat de un nou instrument destinat a măsura interesele, cunoscut sub numele Strong Vocational Interest Blank (SVIB) Acesta va deveni unul dintre cele mai utilizate teste din toate timpurile, deși, a avut, mai mereu, un serios competitor testul ce purta denumirea de Kuder Preference Record, creat în anul 1934 Ceea ce era specific pentru acest test era faptul că el compara mai mult puterea relativă a intereselor la nivel individual decât răspunsurile individuale cu răspunsurile variatelor grupe profesionale Deci, era un test ipsativ iar cele mai recente revizuiri ale acestui instrument psihodiagnostic include variantele Kuder Survey și Kuder Occupational Interest Survey (Zytowski, 1985) Teme de reflecție/autoevaluare: 1 Care este primul test de personalitate construit în timpul primului război mondial ? Prin ce se caracterizează el ? 2 Care sunt cele mai importante teste proiective construite în prima jumătate a secolului XX ? 3 Prin ce se deosebește testul 16PF Cattell de testele MMPI și CPI ? 4 Care sunt testele de interese mai cunoscute ? Prin ce se caracterizează ele ? 2 3 Testele de aptitudini Dezvoltarea testelor de aptitudini a rămas oarecum în urma celei a testelor de inteligență, deși ele sunt instrumente de măsură a abilităților mult mai specifice și mai delimitate Și aceasta mai ales din două motive: unul statistic și altul social (Gregory, J , 1996) Problema statistică ținea de faptul că o nouă tehnică și anume, analiza factorială, era necesară frecvent pentru a stabili care dintre aptitudini erau primare și, totodată, distincte una față de alta Analiza factorială i-a permis lui L L Thurstone să concluzioneze că există factori specifici ai abilităților mintale primare, cum ar fi: înțelegerea verbală, abilitatea numerică, abilitatea spațială, memoria asociativă, viteza perceptuală, raționamentul general În concepția acestui autor, în structura aptitudinilor nu există un singur factor general, așa cum susținuse Spearman, ci mai mulți, respectiv, șapte În 1938 el construiește una dintre primele baterii de teste pentru aptitudini multiple, intitulată The PrimaryMental Abilities Test (PMA) Ulterior au fost dezvoltate alte baterii de aptitudini, care au fost aplicate anual pe milioane de subiecți din SUA Una dintre cele mai populare baterii de teste de aptitudini a fost realizată de către Bennet, Seashore și Wesman (1982, 1984) sub denumirea The Differential Aptitude Test (DAT) Prima versiune a apărut în anul 1947, fiind dedicată, inițial, orientării vocaționale a elevilor din clasele VIII-XII și, apoi, 19 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN consilierii vocaționale a adulților tineri și selecției angajaților Referitor la conținut, această baterie cuprinde un număr de 8 teste independente, ceea ce înseamnă că, în funcție de scopurile diagnostice, bateria poate fi aplicată și parțial O acțiune de mare amploare a fost inițiată, în 1930, de către Departamentul muncii din SUA, constând în crearea unor teste de aptitudini necesare pentru prognozarea performanței în muncă pentru 100 de ocupații specifice Ulterior, mai exact în 1940, acest departament apelează la serviciile unor profesioniști în măsurare și psihologie industrial-organizațională pentru a crea o baterie de teste pentru aptitudini multiple, capabilă să măsoare ocupațiile studiate mai înainte Așa a luat naștere General Aptitude Test Battery (GATB), prima baterie folosită pentru predicția performanței în muncă Referitor la conținut, această baterie cuprinde 8 teste „creion-hârtie” și 4 teste-aparate Cele 12 teste pot fi aplicate în 2 ore și V și permit calcularea scorurilor la 9 factori Unul dintre cele mai folosite teste de aptitudini, tip „creion-hârtie” este ASVAB (The Armed Services Vocational Aptitude Battery) Anual el este aplicat pe un număr de peste 2 milioane persoane și cuprinde 10 subteste 2 4 Testele de achiziții Din această categorie fac parte două grupe de teste și anume: a) teste folosite pentru admiterea în instituțiile de învățământ; b) teste propriu-zis de achiziții (achievement tests) Din prima grupă fac parte multe teste, ele avându-și originea în testele de inteligență The Army Alpha și The Army Betha, folosite în timpul primului război mondial și fiind destinate a măsura inteligența subiecților Unul dintre cele mai vechi este The College Entrance Examination Board (CEEB) După introducerea mașinii de scorare, în 1930, aceste teste au evoluat către College Board Tests, în particular The Scholastic Aptitude test, cunoscut în prezent sub numele de Scholastic Assessment Test Funcțiile CEEB au fost subsumate ulterior la Educational Tests Service (ETS), care s-a preocupat de dezvoltarea, standardizarea și validarea unor teste folosite pentru admitere, devenite apoi foarte cunoscute, precum: The Graduate Record Examination, The Law School Admissions Test, Peace Corps Entrance Tests Testele de achiziție au ca o trăsătură comună faptul că ele urmăresc diagnosticarea, la nivel individual, a achizițiilor realizate de către cei incluși în procesul de învățământ, fie acestea cunoștințe din diferite domenii, fie deprinderi și capacități formate Deci este vorba și de aspectul informațional (achiziționarea de cunoștințe) și de aspectul formativ (capacitatea de a opera, de a acționa) Toate acestea sunt teste standardizate, ceea ce înseamnă că rezultatele obținute de un elev, de exemplu, sunt raportate la rezultatele obținute de întreg lotul de subiecți folosit pentru standardizare Temă de reflecție/autoevaluare: Care sunt elementele de asemănare și cele de diferență între testele de aptitudini și cele de achiziție ? 2 5 Modele de testare clinică Unii autori au încercat să facă o evaluare a modului în care psihometria s-a implicat și a contribuit la rezolvarea problemelor specifice unui anumit 20 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN domeniu al psihologiei aplicate Astfel, de exemplu, S J Korchin și D Schuldberg (1981) au identificat patru modele sau orientări privind testarea psihologică în clinică Ele reflectă diferențele profunde privind concepția despre natura umană, distresul psihologic și condițiile pentru schimbarea terapeutică efectivă: Primul model, de altfel și cel mai vechi este modelul psihometric și el are ca element central măsurarea pe bază de teste Scopul îl reprezintă predicția statistică a trăsăturilor și el reclamă ca testele utilizate să fie valide și demne de încredere Obiectivitatea itemilor testului trebuie abordată prin obiectivitatea examinatorului Al doilea model poartă denumirea de tradiția clinică În acord cu acest model evaluatorul clinic poate utiliza tehnici psihometrice, însă, spre deosebire de modelul psihometric, al cărui scop era descrierea trăsăturilor, el se concentrează asupra descrierii personalității, incluzând arii multiple și niveluri de funcționare Evaluatorul clinic, acționând în acord cu tradiția clinică, pune mai mult accentul pe utilizarea raționamentului, inferenței și subiectivității Al treilea model - măsurarea comportamentului - diferă mult de modelele anterioare, atât în concepție, cât și în practică Evaluatorii comportamentului ocolesc concepțiile asupra personalității privind dispozițiile sau trăsăturile Ei resping ideea conform căreia personalitatea are legătură cu ceea ce un individ este sau are și pun accentul mai mult pe ceea ce individul face De aceea, rolul testării psihologice este minimizat Criteriile psihometrice sunt în mare măsură incompatibile cu presupunerile comportamentale Al patrulea model îl reprezintă psihologia umanistă, ai cărei reprezentanți se manifestă predominant negativ față de măsurare C Rogers (1942) a avut o mare influență în această direcție, susținând dezavantajele utilizării testelor În concepția lui clientul și nu terapeutul trebuie să fie „diagnosticianul” Făcând o sinteză a mai multor puncte de vedere, A Sugarman (1978) evidențiază următoarele argumente pentru afirmația că măsurarea psihologică nu este umanistă: - măsurarea este reducționistă; -măsurarea este artificială; - măsurarea nu acordă atenție relației examinator-pacient; - măsurarea judecă pacientul; - măsurarea este prea intelectuală întrebări de autoevaluare: 1 Care este contribuția lui A Binet și a lui T Simon la dezvoltarea psihodiagnozei 2 Câți itemi cuprinde prima „scală metrică a inteligenței” ? 3 Care sunt primele teste de grup folosite pentru testarea abilităților umane ? 4 Care este contribuția lui L Terman privind dezvoltarea psihodiagnosticului ? 5 Dar a lui D Wechsler ? 6 Care este cel mai vechi test de personalitate ? 7 Care sunt primele teste proiective create ? 8 Care sunt cele mai cunoscute și cel mai mult folosite chestionare de personalitate 9 Care este bateria de teste creată de L L Thurstone ? 10 Care este specificul testelor de achiziție ? 11 Care sunt diferențele de bază dintre cele 4 modele de testare clinică ? 21 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN BIBLIOGRAFIE MINIMALĂ GREGORY, R J (1996) Psychological Testing History, Principles, and Applications Alyyn & Bacon, Needham Heights HORGHIDAN, V (1998), Metode de psihodiagnostic București: Editura didactică și pedagpogică MITROFAN, N (2001), Psihometria și direcțiile ei de dezvoltare la început de mileniu În M Zlate (coord ), Psihologia la răspântia mileniilor Iași: Polirom SCHIOPU, U (2003) Introducere în psihodiagnostic București: Editura Pro-Humanitas LECTURI SUPLIMENTARE ALBU, M (2000) Metode și instrumente de evaluare în psihologie Cluj-Napoca: Argonaut EYSENCK, H J (1998) Teste de inteligență București: Queen 22 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare 3 Tendințe și direcții de dezvoltare a psihodiagnosticului la începtul mileniului III Cuprins: 3 1 Teoria testelor 3 2 Construcția și dezvoltarea unor noi teste 3 3 Computerizarea testelor 3 4 Predicții pentru viitorul apropiat Obiective: La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • cunoască diferențele dintre teoria clasică și teoria răspunsului la item • cunoască noile direcții de construcție și dezvoltare a unor teste • evalueze critic utilizarea computerului în testarea psihologică • cunoască principalele predicții pentru viitorul apropiat 3 1 Teoria testelor În planul teoriei, modelul clasic psihometric este înlocuit de un model nou și anume, IRT (Teoria răspunsului la item) Făcând o sinteză a mai multor puncte de vedere, M Albu (1998) ajunge la concluzia că această teorie are la bază următoarele postulate: 1 Comportarea unui subiect la un item al unui test poate fi explicată (sau prezisă) cu ajutorul unui set de factori, numiți trăsături, trăsături latente sau abilități Orice construct inobservabil, presupus continuu, în privința căruia o teorie psihologică afirmă că persoanele se deosebesc între ele poate fi privit ca factor Fiecărui factor i se asociază o variabilă cu valori numerice cuprinse între - от și + от, continuă, denumită variabilă latentă 2 Se inferează existența unui factor numai dacă se observă că răspusnurile la itemi prin care se dorește măsurarea constructurlui covariază (variază la fel) 3 Relația dintre performnța la item a subiecților și fiecare dintre trăsăturile care au legătură cu performanța poate fi descrisă prin cîte o funcție crescătoare, denumită funcție caracteristică a itemului sau curbă caracterisitică a itemului Această funcție arată cum depinde probabilitatea de a răspunde corect (sau afirmativ) la item de nivelul trăsăturii Cei care susțin acest model caută să evidențieze și argumentele sau rațiunile privind importanța lui și anume: 1 IRT poate compara teste alcătuite explicit din itemi diferiți În consecință, ea permite comparații între diferite ocazii pentru același subiect, în raport cu care memoria pentru răspunsurile anterioare este o problemă, chiar dacă cele două teste nu au itemi comuni Aceasta este numită „măsurarea liberă a testului” și este importantă pentru testarea ajustată și pentru testarea adaptativă computerizată 2 Subiecții cu 23 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN același scor clasic pot să difere în ceea ce privește deprinderea măsurată, depinzând de presupunerile făcute de modelul IRT 3 Estimarea clasică a nivelului atributului (deprinderii) sau numărul corect la un test de abilități nu este legat linear de forma deprinderii În consecință, scala numărului corect nu este o scală de interval 4 Estimările clasice ale dificultății și discriminării, cum ar fi probabilitatea unui răspuns corect, valoarea p și corelația scor la item - scor total (rit) nu sunt dependente una de alta așa cum sunt dependente de abilitățile subiectului Astfel, de exemplu, un item a cărui valoare p în populația generală este 0,5 va avea o valoare mai scăzută printre cei cu abilități inferioare, dar psihometria clasică nu poate să prezică magnitudinea descreșterii, ceea ce nu este cazul IRT O altă teorie ce s-a impus în atenția psihodiagnosticienilor este teoria stărilor și a trăsăturilor latente, care încearcă să dea răspuns la următoarele întrebări (Albu, M , 1998): - cum putem afla dacă răspunsurile date de un subiect la un chestionar care măsoară o trăsătură de personalitate intervin sau nu efectele situației de măsurare ? ; - dacă există efecte ale situației, ce relație există între scorul obținut la scală și trăsătura măsurată ?; - ce relație există între stări și trăsături ? Dar ce este starea și ce este trăsătura ? Spre deosebire de disciplinele tradiționale ale psihologiei, care aveau în atenție fie numai diferențele interindividuale (cum este cazul psihologiei diferențiale), fie diferențele intraindividuale (cum este cazul psihologiei generale), teoria stărilor și trăsăturilor recunoaște printre atributele psihologice existența atât a deosebirilor dintre indivizi, stabile în timp, cât și a schimbărilor intraindividuale Ea consideră că fiecare atribut psihologic observat este afectat într-un anumit grad de: - caracteristici ale individului; - caracteristici ale situației și/sau influențelor care interacționează; - eroarea de măsură În consecință, rezultatul măsurării unei variabile observate se descompune în: 1 o componentă care nu depinde de situație și/sau de efectele interacțiunilor; 2 o componentă care depinde de situație și/sau de efectele interacțiunilor; 3 o eroare de măsură Prima componentă este denumită trăsătură, iar suma primelor două componente este denumită stare Existența acestor componente are implicații extrem de importante asupra modului în care se face evaluarea psihologică (Albu, M , 1998) În construirea și utilizarea testelor este necesar să se cunoască nu numai fidelitatea acestora, ci și cât de mult măsoară aceste caracteristici stabile ale persoanelor și cât de mult sunt afectate ele de situația în care se face măsurarea Când se urmărește măsurarea trăsăturilor, rezultatele măsurărilor trebuie să fie afectate cât mai puțin de efectele specifice ocaziei de măsurare Când se evaluează starea, instrumentul utilizat trebuie să fie sensibil la influențele situației O altă tendință actuală în psihodiagnostic și care se va accentua în anii următori este trecerea de la evaluarea psihometrică la evaluarea potențialului de învățare (Havârneanu, C , 2000) Aceste două sisteme de evaluare au fost percepute antagonist, iar explicația rezidă în apariția unei noi paradigme care se opune practicii tradiționale îndelung aplicate Evaluarea potențialului de învățare oferă posibilitatea construirii și exersării unei sarcini, urmărindu-se 24 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN evoluția subiecților în rezolvarea ei Această metodă de evaluare, spre deosebire de psihometrie, nu se bazează pe ceea ce subiecții au învățat înainte, ci propune sarcini de învățare specifice pentru a se cunoaște profitul pe care ei pot să-l obțină Pentru evaluarea cantitativă și calitativă a potențialului de învățare se folosesc două procedee: 1 Antrenamentul în timpul testului, procedeu care constă în corectarea și antrenarea subiectului imediat după o soluție greșită După această fază urmează evaluarea, în care se oferă subiectului un număr de itemi pe care trebuie să-i rezolve fără asistență Ceeea ce este important în această procedură este faptul că subiectul poate să-și manifeste aptitudinea de a stăpâni și aplica principiile învățate în timpul evaluării; 2 Procedeulpre-test -post-test, ce cuprinde trei faze: - faza pre-test, care constă în obținerea unei evaluări de bază a funcțiilor actuale și care este asemănătoare testului psihometric uzual; - faza învățării, care constă în a expune subiectului condițiile ce favorizează reușita sarcinii propuse În această fază i se dau ajutoare ce-i permit să avanseze spre rezolvarea problemei, să învețe strategii de utilizat pentru rezolvare sau să-și corecteze comportamentul indecvat față de problemă; - faza post-test, care constă în verificarea efectelor învățării De fapt, cele două tendințe nu se exclud, ci, dimpotrivă, ele sunt complementare în examenul psihologic (Hvârneanu, C , 2000) Testele permit evaluarea a ceea ce un subiect este capabil să facă în momentul administrării testului, iar evaluarea potențialului de învățare ne permite să estimăm dacă subiectul este capabil să învețe Teme de reflecție/autoevaluare: 1 Ce aduce nou, în domeniul psihodiagnosticului, teoria răspunsului la item (IRT) ? 2 Ce aduce nou, în domeniul psihodiagnosticului, teoria stărilor și trăsăturilor ? 3 În ce constă evaluarea potențialului de învățare ? 3 2 Construcția și dezvoltarea unor noi teste Sute de noi teste sunt publicate în fiecare an și rata proliferării lor va crește, pe de o parte, din nevoia de a răspunde unor cerințe dinspre noi domenii (de exemplu, psihologia ecologică, psihologia comportamentului, psihologia clinică, psihologia familiei etc ), iar pe de altă parte, din nevoia de a înlocui testele mai vechi Printre testele mai noi putem aminti: The Kaufman Assessment Battery for Children (K-ABC), Minnesota Multiphasic Personality Inventory, varianta 2 (MMPI-2) pentru adulți și varianta pentru adolescenți (MMPI-A), Personality Inventory for Children (PIC), Multidimensional Aptutude Battery (MAB) ș a Privitor la personalitate au fost construite mai multe teste bazate pe modelul celor 5 factori (BIG-FIVE) Deși diferiți cercetători au folosit termeni diferiți, acești factori sunt (Minulescu, M , 1996): Nevrotismul-Neuroticism; Extraversiunea-Extraversion; Deschiderea la experiență-Openness to Experience; Agreabilitatea-Agreeableness; Conștiinciozitatea - Conscientousness Rearanjând acești factori se ajunge la un acronim simplu: OCEAN (Gregory, R J , 1996) 25 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Plecând de la acest model, P T Costa (1991) și R McCrae (1989, 1992) au construit două teste de personalitate: 1 The revised NEO Personality Inventory (NEO-PI-R), ce conține 240 de itemi În afara celor 5 domenii majore ale personalității, inventarul măsoară 6 trăsături specifice, numite fațete, în cadrul fiecărui domeniu; 2 The NEO Five-Factor inventory (NEO-FFI), ce cuprinde 60 de itemi și care este, de fapt, o versiune prescurtată a celuilalt Oricum, noile teste își dovedesc superioritatea fie datorită unor calități psihometrice superioare, fie datorită faptului că sunt mult mai specifice și mult mai potrivite pentru diferite probleme particulare De asemenea, testele mai noi se dosebesc fundamental de cele tradiționale, deoarece ele sunt bazate pe concepte și teorii moderne din diferite ramuri ale psihologiei Este suficient să amintim, de exemplu, impactul produs asupra construirii testelor de inteligență de teoria lui R Sternberg (modelul triarhic) și de teoria lui H Gradner (variante multiple ale inteligenței) De altfel, proliferarea testelor netradiționale este determinată de două tendințe existente în testarea psihologică: 1 testele netradiționale reflectă creșterea răspunsului științei psihologice la nevoile din ce în ce mai mari de aplicare în practică (Haynes, S N ,1991) Chiar și cei mai înverșunați adversari ai psihometriei pot să recunoască faptul că noile teste constituie, înainte de orice, un răspuns la obiecții și o încercare de perfecționare și de creștere a „puterii” (soundness} testului; 2 Se fac eforturi pentru a integra testele cu alte aspecte ale psihologiei aplicate De exemplu, mulți psihologi, orientați în special spre latura comportamentală, au fost decepționați de relația extrem de slabă dintre măsurarea clinică, testele tradiționale și intervențiile pe linia tratamentului (Haynes, S N , 1992) Cel mai de dorit ar fi nu testele ale căror rezultate au o legătură directă cu tratamentul, ci acelea care pot fi utilizate pentru măsurarea eficacității tratamentului Un alt aspect al proliferării instrumentelor psihodiagnostice îl constituie construirea unor teste din categoria celor semistandardizate Este vorba, de altfel, de încercarea psihologilor de a scoate psihodiagnosticul de sub controlul exclusiv al experților și de a oferi și altor utilizatori (cum este cazul părinților, cadrelor didactice, personalului medical, asistenților sociali ș a ) unele instrumente psihodiagnostice care să-i ajute în activitatea lor Aceste teste ar oferi informații cu caracter orientativ (Mitrofan, N , 1997), iar în cazul în care sunt semnale că există probleme mai serioase, trebuie să se apeleze la un psihodiagnstician expert Și dacă ne gândim că asemenea culegeri de teste publicate poartă pe coperți nume celebre, cum este cel al lui H J Eysenck (1998), putem să înțelegem mai ușor utilitatea lor Cu toate acestea, considerăm că sunt necesare serioase precauții, deoarece o asemenea intenție generoasă poate fi contrabalansată de multiple efecte negative asupra psihodiagnozei autentice, științifice Teme de reflecție/autoevaluare: 1 Care sunt cele mai noi teste create ? Ce trăsături au ele față de cele create mai demult ? 2 De ce trebuie să manifestăm precauție față de testele semistandardizate ? 26 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 3 3 Computerizarea testelor Desigur, un prim scop al utilizării computerului în psihodiagnoză îl reprezintă scurtarea timpului de aplicare, incluzând toate etapele și, mai ales, scorarea și interpretarea rezultatelor Unii autori încearcă să evidențieze și alte avantaje Astfel, C Havarneanu (2000) delimitează următoarele criterii care evidențiază avantajele utilizării computerului în examinarea psihologică: 1 Criteriul timp Față de probele clasice, cele computerizate aduc o condensare temporală Aceasta nu rezultă din scurtarea timpului de solicitare, ci din modul rapid de prelucrare, afișare și tipărire a rezultatelor Timpul câștigat poate fi alocat întreținerii psihologice prelungite cu subiectul aflat în situația de examinare Computerul nu se interpune între examinat și examinator, el oferind posibilitatea prelungirii sensibile a contactului uman direct, atât de necesar realizării unui psihodiagnostic competent; 2 Criteriul mobilității Față de unele probe de reactivitate senzorio-motorie utilizate, subiectul poate reacționa la stimuli în mișcare bidimensională Posibilitatea utilizării unor stimuli perturbatori are o gamă mai largă de utilizare Un avantaj cert este acela că există posibilitatea subiectului de a comunica interactiv cu computerul, care posedă largi distribuții ale posibilităților de răspuns; 3 Criteriul particularizării și individualizării examenului În formele tradiționale de examinare, operativitatea este scăzută din cauza timpului practic limitat care se poate aloca pentru a culege un număr mare de date și pentru a face comparații rapide ale acestora În formele de examinare computerizată se pot efectua comparații rapide, se pot nuanța rezultatele, iar interacțiunea datelor poate fi analizată în permanență; 4 Criteriul economic O particularitate deloc neglijabilă în capacitatea de investigare a unui laborator constă în posibilitatea de dotare materială O probă de tip clasic presupune cheltuieli de achiziționare superioare costului unui computer pe care pot fi stocate un număr nelimitat de probe psihologice Un alt mod de utilizare îl reprezintă testarea computerizată adaptativă Diferitele seturi de întrebări ale testului sunt administrate, cu ajutorul calculatorului, la diferiți indivizi în funcție de „statutul” fiecăruia dintre ei față de trăsătura supusă măsurării În testarea abilităților, de exemplu, computerul adaptează nivelul de dificultate a itemului în funcție de răspunsul subiectului Dacă răspunsul este incorect, este oferit un item mai ușor, iar dacă este corect, poate fi selectat un item mai dificil Un alt exemplu: un computer poate avea o bancă de itemi pentru un test de achiziție, aceștia prezentând diferite niveluri de dificultate Computerul poate fi programat: 1 să nu prezinte un item crescut de dificultate dacă subiectul nu a răspuns corect la 2 itemi succesivi de un nivel de dificultate inferior; 2 să termine testarea când subiectul nu răspunde corect la 5 itemi consecutivi de un anumit nivel de dificultate O altă direcție de utilizare a computerului este aceea în care el generează sarcini ce nu pot fi prezentate prin metode tradiționale Prin intermediul calculatorului va fi posibilă abordarea unei noi palete de abilități ce nu au figurat în obiectivele unor teste tradiționale În fiecare an sunt dezvoltate tot mai multe programe pentru scorarea testelor și pentru producerea unor rapoarte scrise M Albu (1998) enumeră, în 27 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN lucrarea sa, mult mai multe utilități prezente și, mai ales, viitoare ale programelor folosite în domeniul testării psihologice: a) păstrarea rezultatelor testării psihologice, în fișiere sau în baze de date; b) calculul scorurilor la teste; asemenea programe sunt utile mai ales în cazul testelor compuse dintr-un număr mare de itemi, repartizați pe mai multe scale Există și teste care nu pot fi cotate decât cu ajutorul calculatorului (de exemplu, testul pentru capacitatea de organizare CO92); c) administrarea testelor, urmată, desigur, de calculul scorurilor; cu ajutorul calculatorului pot fi administrate teste prin care se măsoară variabile psihice sau fiziologice care nu ar putea fi investigate în cazul administrării de tip „creion-hârtie” (de exemplu, timpul de reacție, timpul de decizie, timpul de răspuns la fiecare item al unui chestionar etc ); d) identificarea protocoalelor invalide, în care răspunsurile subiectului nu sunt conforme cu realitatea Un procedeu utilizat în acest scop aplică teste statistice asupra succesiunilor de răspunsuri date de subiect; e) verificarea unor ipoteze referitoare la persoana examinată, pe baza comparării, prin teste statistice, a rezultatelor obținute de aceasta la examenul psihologic cu cele ale unui eșantion extras din populația căreia îi aparține subiectul; f) intervievarea subiectului; programele conțin, alături de întrebările posibile, și un algoritm de constituire a interviului în timpul examenului psihologic, în funcție de răspunsurile date de subiect Interviurile administrate de calculator sunt contraindicate însă în cazul copiilor, al adulților cu un nivel intelectual scăzut și al celor cu simptome psihiatrice; g) interpretarea rezultatelor la un test psihologic, care are la bază transpunerea într-un program a unui set de reguli prespecificate, referitoare la un răspuns sau la un pattern de răspunsuri (un scor la un test sau un profil psihologic), ce permite analiza, interpretarea și evaluarea unor calități ale persoanelor; h) redactarea raportului psihologic; uneori sunt formulate predicții referitoare la subiect, fie pe baza unor metode statistice (de exemplu, folosind regresia liniară), fie pe baza identificării unor legături între scorurile la test și unele caracteristici non-test, cum sunt datele biografice Alteori, în urma comparării profilului psihologic al subiectului cu rezultatele obținute la aceleași teste de diverse grupuri de persoane (de exemplu, grupuri care diferă între ele prin profesie, prin performanța în muncă sau prin diagnosticul psihiatric) se determină populația din care face parte persoana examinată; i) alegerea tratamentului (a terapiei, a programului de instruire etc ) cel mai potrivit pentru subiect; acesta reprezintă cel mai înalt nivel de implicare a calculatorului în activitatea psihologului și este de așteptat ca numărul programelor de acest tip să crească; j) construirea unui test psihologic După unii autori (Cohen, Swerdlik și Phillips, 1996), programele pentru computer, destinate a facilita construcția, administrarea, scorarea și interpretarea unor teste, cum ar fi cazul testelor de achiziție dezvoltate de cadrele didactice, vor prolifera într-un mod impresionant Asemenea programe, având denumiri de genul „Make a test”, „Create a test”, „The Grand Inquisitor”, „The First National Item Bank and Criterion-References Scoring System”, evidențiază două avantaje majore ale testării psihologice computerizate: 1 capacitatea de a stoca itemi în „banca de itemi”; 2 28 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN capacitatea de a individualiza testarea printr-o tehnică numită „ramificarea itemului” Tema de reflecție/autoevaluare: Să presupunem că cineva manifestă reticență privind utilitatea calculatorului în activitatea psihodiagnostică Cu ce argumente l-ați putea convinge de contrariul ? 3 4 Predicții pentru viitorul apropiat Rferitor la tendințele de dezvoltare în viitor ale psihometriei, unii autori (Kaplan, R M , Saccuzzo, D P , 1993) au formulat o serie de predicții: Predicția 1: perspectivele sunt promițătoare Acest optimism este bazat pe rolul imens pe care l-a jucat testarea în dezvoltarea și recunoașterea psihologiei în general și a psihologiei profesionale, în particular Poate că testele, așa cum sunt cunoscute ele astăzi, vor fi retrase din scenă, dar aceasta nu înseamnă că psihometria își va închide porțile, ci, dimpotrivă, ea va înflori în secolul următor; Predicția 2: proliferarea unor teste noi și îmbunătățite va continua cu și mai mare intensitate Testele de inteligență, așa cum se prezintă ele astăzi, sunt departe de a fi perfecte, cu toate revizuirile făcute Prin urmare, rolul dominant al bateriilor de teste Stanford-Binet și Wechsler nu este deloc sigur pentru viitor Chiar dacă multiplele revizuiri efectuate până acum au condus la îmbunătățirea unor elemente de conținut și la unele calități psihometrice noi, aceste teste nu diferă în esență de caracteristicile și de concepția care a stat la baza construirii scalelor originale Referitor la testele de personalitate, se pare că varianta recentă (MMPI-2) a Inventarului Multifazic de Personalitate Minnesota va fi testul secolului XXI, iar în ceea ce privește categoria testelor proiective, testul Rorschach își va câștiga un nou nivel de acceptanță și respectabilitate în secolul XXI Predicția 3:schimbări revoluționare tip „perestroika” în testarea școlară Unii specialiști susțin că, în secolul ce a început, se vor utiliza mai ales testele de achiziție standardizate la nivel național, în timp ce alții resping această idee De asemenea, se pare că, în anii următori, testele de performanță ar putea înlocui testele standardizate cu răspunsuri multiple la alegere Testele de performanță reclamă ca, în loc să ofere un răspuns verbal sau să completeze o foaie de răspuns, subiectul să facă ceva Astfel, elevilor li s-ar cere să scrie eseuri, să ofere răspunsuri scrise la probleme specificate sau să rezolve probleme de matematică Predicția 4: vor continua controversele, neînțelegerile și schimbările Se pare că dezacordul și controversa reprezintă cea de-a doua natură a psihologului Și nu este vorba numai de testarea psihologică, ci de orice Desigur, motivul principal al controverselor dintre psihometricieni este legat de imperfecțiunile instrumentelor psihodiagnostice; de aceea, schimbarea va fi o caracteristică constantă în acest domeniu al psihologiei aplicate 29 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Temă de reflecție/autoevaluare: Analizați aceste predicții și stabiliți dacă viitorul activității psihodiagnostice este de bun augur sau nu Întrebări de autoevaluare: 1 Prin ce se caracterizează Teoria răspunsului la item (IRT) ? 2 Ce înseamnă evaluarea potențialului de învățare ? 3 Care sunt cele mai importante teste mai nou construite ? 4 Ce avantaje prezintă computerizarea testelor ? 5 Ce înseamnă testarea computerizată adaptativă ? 6 Enumerați câteva programe pentru testarea computerizată 7 Ce se așteaptă în viitor privind activitatea psihodiagnostică ? BIBLIOGRAFIE MINIMALĂ ALBU, M (1998), Construirea și utilizarea testelor psihologice Cluj-Napoca: Clusium ALBU, M , Pitariu, H (1993) Proiectarea testelor de cunoștințe și examenul asistat de calculator Cluj-Napoca: Casa cărții de știință HAVÂRNEANU, C (2000) Cunoașterea psihologică a persoanei Iași: Polirom KAPLAN, R M , SACCUZZO, D P (1993) Psychological Testing Principles, Applications, andIssues Pacific Grove: Brooks/Cole Publishing Company MINULESCU, M (1996) Chestionarele de personalitate în evaluarea psihologică București: Garell Publishing House 30 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare nr 4 Situația psihodiagnosticului din România în perioada actuală Cuprins: Probleme mai vechi și mai noi cu care se confruntă psihodiagnosticienii Legea 213/2004 și Colegiul Psihologilor din România Să privim viitorul cu optimism Obiective: La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • cunoască bine problemele cu care se confruntă psihologii ce folosesc teste; • cunoască cerințele legate de aplicarea și comercializarea testelor; • cunoască prevederile Legii 213/2004 privitoare la Crearea Colegiului Psihologilor din România; • identifice corect locul și rolul Comisiei metodologice; • fie familiarizat cu realizările românești în domeniul psihodiagnosticului 4 1 Probleme mai vechi și mai noi cu care se confruntă psihodiagnosticienii Trebuie, mai întâi, să subliniem faptul că, și înainte de 1989, chiar dacă psihologia nu era apreciată de guvernanții de atunci, au existat preocupări ale psihologilor români pentru dezvoltarea psihodiagnosticului Putem aminti, în acest sens, nume precum: Gh Zapan, U Schiopu, P Constantinescu, G Bontilă, I M Nestor, M Roșca, T Kulcsar, I Holban, A Cosmovici ș a Din nefericire, mai ales după 1977, aproape un sfert de secol „pedepsele” politice aplicate științelor sociale, dar mai ales psihologiei, au afectat grav și psihodiagnosticul În perioada postdecembristă însă, psihologia românească a fost repusă, în mare măsură, în drepturile ei firești S-au reînființat secțiile de psihologie din cadrul universităților, Institutul de psihologie, au apărut noi lucrări de valoare, reviste, s-au organizat manifestări științifice A apărut, totodată, și învățământul privat, așa că anual avem mulți absolvenți în psihologie, care doresc să activeze ca specialiști în școli, clinici, firme, bănci, armată, transporturi etc În aproape orice domeniu sunt și trebuie să fie utilizate instrumente psihodiagnostice Dar și până la absolvire studenții folosesc teste pentru diferite lucrări, inclusiv pentru lucrarea de licență, pentru disertația de masterat Nu mai vorbim de cei care fac tot felul de investigații, pe bază de teste, pentru elaborarea tezei de doctorat Dar cum se prezintă testele folosite în practică în țara noastră ? Am putea analiza situația lor în funcție de mai multe aspecte: a) starea echipamentului testelor; b) aplicarea testelor; c) comercializarea testelor Referitor la starea echipamentului testelor, trebuie să menționăm faptul că, în marea lor majoritate, testele se prezentau într-o situație 31 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN necorespunzătoare Cele mai multe dintre teste erau vechi și foarte vechi, folosite și răsfolosite, multiplicate în fel și chip, ceea ce făcea ca multe pagini ale testelor să cuprindă, pe lângă conținutul itemilor, tot felul de semne și de pete, din cauza multiplicării în condiții tehnice discutabile Erau multe teste incomplete, fără manual, fără nicio sursă privind istoricul, caracteristicile psihometrice, valoarea psihodiagnostică Și în ceea ce privește, să spunem, partea auxiliară a testelor, cum ar fi partea materială, foile de răspuns, grilele etc , au existat mari probleme, în sensul că acestea ori nu au existat, ori erau confecționate într-o manieră extrem de discutabilă Desigur, între timp lucrurile s-au mai îmbunătățit Au fost create teste noi, respectându-se riguros cerințele de ordin științific, au fost reetalonate și restandardizate teste ce erau folosite în practică, multe teste au fost computerizate etc Activitatea de aplicare a testelor este serios și sever reglementată în țările în care grija pentru menținerea prestigiului științific al psihologului este permanentă Există coduri, standarde etc care precizează foarte clar cine utilizează testele psihologice, cum le aplică și cum sunt folosite rezultatele La noi în țară, în perioada de după Revoluție, nu au existat asemenea preocupări iar consecințele negative nu au întârziat să apară Multe teste puteau fi aplicate de oricine, fără nicio restricție Unii psihologi au publicat chiar cărți în care au inclus informații complete privind aplicarea testelor, cum este cazul unor teste proiective Ei au încălcat flagrant unele prevederi ale codului deontologic Din nefericire, unele teste ajunseseră în mâna altor specialiști (ingineri, economiști, secretari etc ), fiind vorba de unele teste serioase și pretențioase în ceea ce privește aplicarea și interpretarea rezultatelor Comercializarea testelor ridică cel puțin două întrebări de bază: 1 de unde procură psihologul specialist testele de care are nevoie ? 2 cine se ocupă în țara noastră de comercializarea testelor ? Ideal ar fi cam așa: un for național asigură revizuirea testelor, le reetalonează și, prin intermediul unor firme, care trebuie să respecte strict anumite reguli de distribuire, le oferă solicitanților, dar mai ales celor care satisfac cerințele de formare și de specializare Până la crearea Colegiului Psihologilor din România, nimic din ce am menționat nu a existat în realitate, absolvenții de psihologie fiind obligați, dacă nu și-au procurat din timpul facultății ceva teste prin multiplicare-copiere, să găsească o cale strict personală pentru a ajunge la unii psihologi care folosesc teste Și iarăși multiplicare, cu toate consecințele sale, teste incomplete, etaloane inutile etc În ultimul timp mai multe firme au preluat activitatea de comercializare a testelor, ele trebuind să aibă acreditarea din partea Comisiei metodologice a Colegiului Temă de reflecție/autoevaluare: Cu ce probleme s-au confruntat, și se mai confruntă încă, psihodiagnosticienii din țara noastră ? l 2 I 4 2 Legea nr 213/2004 și Colegiul Psihologilor din România Desigur, necesitățile apariției acestei legi nu țin numai de problemele legate de instrumentele psihodiagnostice Ea a apărut în 2004 sub denumirea completă „Legea nr 213 din 27 mai 2004 privind exercitarea profesiei de 32 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN psiholog cu drept de liberă practică, înființarea, organizarea și funcționarea Colegiului Psihologilor din România” Această lege trebuie să fie cunoscută de orice psiholog din România, incluzându-i și pe cei care se află în proces de formare (studenții, masteranzii) În baza ei s-a înființat Colegiul Psihologilor din România, iar în cadrul Colegiului funcționează 4 comisii aplicative, respectiv: a) Comisia de psihologie clinică, consiliere psihologică și psihoterapie; b) Comisia de psihologie a muncii, transporturilor și serviciilor; c) Comisia de psihologie educațională, consiliere școlară și vocațională; d) Comisia de psihologie pentru apărare, ordine publică și siguranță națională De asemenea, mai funcționează Comisia metodologică și Comisia de deontologie și disciplină Mai legată de activitatea psihodiagnostică este Comisia metodologică Ea a elaborat deja „Normele de avizare a metodelor și tehnicilor de evaluare și asistență psihologică” Conform art 3 (1) Comisia Metodologică a Colegiului Psihologilor din România, prin normele de avizare prezente, stabilește standardele de calitate și procedurile de avizare pentru metodele și tehnicile de evaluare și asistență psihologică Pe de altă parte, conform art 3(2) „Comisiile aplicative din cadrul Colegiului Psihologilor din România, prin normele de avizare specifice, atestă competențele profesionale ale psihologilor de a utiliza metode și tehnici de evaluare și asistență psihologică Toate comisiile de specialitate vor avea în vedere competențele generale de utilizare a testelor psihologice precizate în documentul de față” De o mare importanță sunt precizările referitoare la dreptul de utilizare a testelor psihologice Cei care folosesc testele trebuie să fie în posesia unor competențe bine precizate și acestea se obțin prin procesul de formare profesională, însemnând și anii de studiu și de practică din facultate, dar și procesul de formare postuniversitară Categoriile majore de competențe vizează următoarele aspecte etice în aplicarea testelor: a) adoptarea unei conduite profesioniste, în acord cu normele deontologice ale psihologului și cu respectarea legilor internaționale și naționale privind copyright-ul (legea drepturilor de autor și a drepturilor conexe - nr 8/1996); b) utilizarea doar a acestor teste pentru care au competența necesară; c) asumarea responsabilității pentru modul de utilizare a testelor; d) asigurarea securității pentru testele utilizate, astfel încât ele să nu-și piardă calitățile din cauza deconspirării publice a conținutului ori a mecanismelor de cotare; e) asigurarea confidențialității rezultatelor; f) acordul scris sau în formă electronică de includere a rezultatelor în baza de date a utilizatorului probei psihologice De asemenea, această comisie a elaborat o serie de norme referitoare și la modul de comercializare a testelor Iată, așadar, că sunt create condiții pentru ca, și în țara noastră, activitatea psihodiagnostică să intre complet în normal Temă de reflecție/autoevaluare: Faceți o scurtă analiză privind importanța elaborării Legii nr 213/2004 pentru psihologia românească 4 3 Să privim viitorul cu optimism 33 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Chiar dacă în perioada postdecembristă au fost numeroase probleme cu care s-a confruntat psihologia românească, în general, și psihodiagnosticienii, în special, încă de la începutul ei numeroși psihologi s-au angajat serios pe direcția reclădirii din temelii a acestei profesii Și rezultatele nu au întârziat să apară Vom aminti în continuare câteva dintre cele mai importante realizări în domeniul psihodiagnosticului: a) apariția unor lucrări de mari proporții și de mare importanță, în cadrul cărora regăsim preocupări privind îmbunătățirea metodologiei utilizate în cercetările psihologice(de exemplu, Zlate, M , 2000; Radu, I , 1993; Neculau, A , 1996); b) publicarea unor lucrări românești, după 1990, adresate bazelor teoretice ale psihometriei (de exemplu: Minulescu, M , 1996 și 2004; Albu, M , Pitariu, H , 1993; Albu, M , 1998 și 2000; Havîrneanu, C , 2000; Stan, A , 2001; Horghidan, V , 1997; Mitrofan, N , 1997; Mitrofan, N , Mitrofan, L , 2006; Schiopu, U , 2003; Dumitrașcu, N , 2005 ș a ); c) stabilirea unor legături cu specialiști din alte țări, fiind astfel posibil accesul la lucrări și informații de mare valoare din psihodiagnosticul mondial; d) formarea unor specialiști în alte universități din lume; noi înșine am activat în cadrul a două universități americane de prestigiu, câte 6 luni Este vorba de University of Southwestern Louisiana, unde am lucrat cu S Hotard și University of Texas at El Paso from El Paso, având privilegiul de a lucra împreună cu R Whitworth; e) etalonarea unor teste pe populație românească Am aminti aici cazul testului american DENVER , care a fost etalonat în perioada 1993-1994, cu sprijinul material și mai ales financiar al Societății SORZ din Olanda (director Pieter G J M Hermsen) și cu entuziasmul unor cadre didactice și studenți din mai multe centre universitare Coordonarea generală a parținut centrului universitar București (N Mitrofan și G Drilea), iar pentru celelalte centre universitare coordonarea a fost asigurată de următoarele cadre didactice; A Munteanu (Timișoara), C Havârneanu (Iași), Ș Szamosckosy (Cluj-Napoca); f) pătrunderea în România a unor teste noi, moderne, care sunt folosite în cadrul unor universități în scop de familiarizare și de formare a psihologilor Este cazul testelorWAIS-III; WISC-III; WISC-IIIUK; WPPSI-R, MMPI-2; MMPI-A; Scalele McCarthy pentru copii; Scalele de dezvoltare Bayley etc ; g) formarea unor specialiști în cadrul programelor de masterat și doctorat Întrebări de autoevaluare: 1 De ce credeți că psihologia nu era susținută ca știință de către autorități înainte de 1989 ? 2 Enumerați câțiva psihologi care s-au ocupat de problemele psihometriei înainte de 1989 ? 3 Cum se prezenta situația testelor imediat după 1990 ? 4 Cum se prezintă situația testelor în zilele noastre ? 5 În ce măsură Colegiul Psihologilor sprijină dezvoltarea psihodiagnosticului ? 6 Ce atribuții are Comisia metodologică ? 7 Care sunt cele mai importante realizări în domeniul psihodiagnosticului ? BIBLIOGRAFIE MINIMALĂ MITROFAN, N (2001), Psihometria și direcțiile ei de dezvoltare la început de mileniu În ZLATE, M , Psihologia la răspântia mileniilor Iași: Polirom COLEGIUL PSIHOLOGILOR DIN ROMÂNIA (2005 și 2006), Acte normative 34 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Modulul II - Testul psihologic ca mijloc de evaluare Unitatea de învățare 1 Testul psihologic Cuprins: 2 1 Cum definim testul psihologic ? 2 2 „Echipamentul” testului psihologic 2 3 Funcțiile psihodiagnozei Obiective: La sfârșitul acestei unități de învățare studenții vor fi capabili să: • cunoască mai multe definiții date testului psihologic • selecteze elementele comune din mai multe definiții • cunoască ce înseamnă „echipamentul” (Kit-ul) complet al testului • cunoască principalele funcții ale psihodiagnozei 2 1 Cum definim testul psihologic ? Mai întâi, facem precizarea că termenul de test este legat de cel de diagnostic psihic, care, la rândul lui, provine de la cuvântul grecesc diagnosticos, însemnând „apt de a recunoaște” Până la un anumit punct, diagnosticul psihic este similar cu diagnosticul medical, deoarece există o multitudine de caracteristici specifice Referitor la definiție, vom trece în revistă mai multe definiții, oferite de autori străini (limba engleză și franceză) și români: Cronbach (1966): „Testul este o procedură sau o serie de probe, construite în scopul stabilirii prezenței (sau absenței) unui aspect psihic, a particularităților de manifestare comportamentală sau a gradului de dezvoltare psihică” Pierre Pichot: „Testele sunt instrumente de lucru standardizate servind de stimuli pentru un comportament, care, la rândul lui, poate fi evaluat prin compararea statistică cu comportamentul altor subiecți aflați în aceeași situație” P Oldron: „Testul este un instrument fundamental al psihologiei aplicate ce se caracterizează prin posibilitatea de a examina numeroși indivizi în situații uniformizate” A Rey: „Testele psihologice sunt procedee standardizate, construite astfel încât să provoace la subiecții investigați reacții înregistrabile iar materialul obținut prin intermediul acestor teste se estimează prin referință la valorile etalon” M Roșca (1972): „Testul este o probă sau o serie de probe, construite în scopul stabilirii prezenței (sau absenței) unui aspect psihic, a particularităților de manifestare comportamentală sau a gradului de dezvoltare psihică” 35 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Grand dictionnaire de la psychologie (1994): „Testul este o probă, utilizată cu precădere în psihologia diferențială, care permite descrierea comportamentului unui subiect într-o situație definită precis, prin raportare la comportamentul unui grup precis de subiecți, plasați în aceeași situație standard Descrierile se fac de obicei sub formă numerică” A Anastasi (1992): Testul este o măsură obiectivă și standardizată a unui eșantion de comportament Să analizăm mai amănunțit ultima definiție, în cadrul căreia am subliniat 3 concepte, considerate a fi concepte-cheie Măsură obiectivă înseamnă, în principal, două aspecte: a) administrarea, cotarea și interpretarea scorurilor sunt obiective în măsura în care acestea sunt independente în raport cu judecățile subiective ale examinatorului: b) obiectivitatea testului reiese din faptul că determinarea nivelului de dificultate al unui item ori a întregului test se bazează pe proceduri empirice, obiective și nu pe nivelul de apreciere (deci, subiectivitate) a celui ce construiește un test Al doilea concept, măsură standardizată, înseamnă, de asemenea, mai multe aspecte: a) standardizarea implică uniformitatea procedurii în administrarea, cotarea și evaluarea rezultatelor Pentru ca scorurile diferitelor persoane să fie comparabile, condițiile de testare trebuie, în mod evident, să fie aceleași pentru toți În vederea asigurării acestei uniformități a condițiilor testării, constructorul testului are obligația să ofere informații și direcții detaliate pentru administrarea fiecărui test nou De altfel, formularea acestor direcții este o parte majoră a standardizării unui test nou, deoarece ele se referă la: - materialele folosite; -instrucțiunile orale (instructajul); - demonstrațiile preliminare; - modalitățile de răspuns la întrebările și neclaritățile ridicate de către subiecți; - orice alte detalii privind situația de testare; b) un alt pas important în standardizare este stabilirea normelor, a etalonului, la care raportăm, după aplicarea testului, rezultatele obținute de către subiect Ceea ce obține concret la un test un subiect constituie scorul brut (raw score) și el poate să exprime numărul corect de itemi, timpul cerut pentru îndeplinirea unei sarcini, numărul erorilor sau alte modalități de măsurare potrivite conținutului testului Acest scor nu spune nimic până nu îl raportăm la norme sau la etalon (Cuvântul norme este preluat din limba engleză și el este echivalent cuvântului etalon din limba română) În sfârșit, conceptul eșantion de comportament se referă la faptul că, în acțiunea de testare, vizăm o anumită secvență a comportamentului sau un anumit tip de comportament, cum ar fi, de exemplu: comportament inteligent, comportament creativ, comportament motric, comportament verbal etc Să mai poposim puțin și asupra altei definiții dată testului psihologic de către Robert Gregory: „Testul psihologic este o procedură standardizată folosită pentru eșantionarea comportamentului și descrierea lui cu ajutorul categoriilor sau scorurilor” Plecând de la această definiție, putem deduce faptul că majoritatea testelor prezintă următoarele caracteristici definitorii: a) procedura de standardizare; b) eșantionul de comportament; c) scoruri sau categorii; d) norme sau standarde; e) predicția comportamentului netestat Procedura de standardizare este trăsătura esențială a testului psihologic Niciun examinator nu are voie să se abată de la setul de instrucțiuni și de 36 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN precizările privind modul de aplicare a testului existente în cadrul manualului Acestea reprezintă o garanție privind faptul că procedurile de administrare se aplică identic de către toți Eșantionul de comportament este de interes în măsura în care el permite examinatorului să facă inferențe asupra domeniului total al comportamentului De exemplu, scopul unui test de vocabular, care cuprinde un număr determinat de cuvinte este, de fapt, de a măsura cunoașterea generală a vocabularului de către examinat Pe de altă parte, un bun test trebuie să aibă capacitatea de a-i permite examinatorului să prognozeze alte comportamente și nu pe cele reflectate de itemi Dacă, de exemplu, răspusnul „Da” la întrebarea „Beau foarte multă apă ?” se întâmplă să ajute la prognozarea depresiei, atunci această întrebare care pare a nu avea nicio legătură devine un index util al depresiei Aplicarea testelor se finalizează cu derivarea de scoruri sau de categorii Întru-cât se prezumă că toți oamenii posedă trăsătura sau caracteristica ce urmează a fi măsurată într-o anumită „cantitate”, scopul testării psihologice este de a estima tocmai această cantitate, exprimată numeric De asemenea, un test psihologic trebuie să posede norme sau standarde Rezultatele obținute de grupul de normare sau eșantionul de standardizare sunt grupate pe mai multe clase, stabilindu-se performanța medie și, totodată, ele servesc la indicarea frecvenței cu care diferite scoruri cu valoare mai mare sau mai mică sunt obținute Teme de reflecție-autoevaluare: 1 Care sunt elementele de asemănare și cele de deosebire ce rezultă în urma analizării multiplelor definiții date testului psihologic ? 2 De fapt, ce este testul psihologic ? 2 2 „Echipamentul” testului psihologic Așa după cum am precizat în Modulul I, din nefericire, mult timp testele au fost folosite în practică în variante complet necorespunzătoare: fie nu se cunoștea autorul testului, fie nu exista manual al testului, fie nu existau foi de răspuns standard etc Orice student care își începe studiile în domeniul psihologiei trebuie să știe că fiecare test trebuie să aibă un „echipament” (în limba engleză i se spune „kit”) complet Ce înseamnă asta? Înainte de orice, testul este oferit, ca orice marfă, într-un fel de ambalaj (geantă, servietă, traistă, cutie de carton etc ) pe care este înscris titlul testului În interior regăsim două categorii de componente, respectiv: a) testul propriu-zis, adică proba sau sarcina pe care o are de rezolvat subiectul, împreună cu instructajul și, eventual, cu câteva exemple, pentru ca subiectul să înțeleagă mai bine ce are de făcut Sarcinile pot fi foarte diverse, în funcție de specificul testului: poate răspunde la unele întrebări, poate efectua anumite desene, poate opera cu cuvinte sau propoziții, poate construi ceva, poate opera cu un material figural etc De cele mai multe ori testul vizează anumite aspecte comportamentale ale subiectului și, în funcție de rezultate, oferă informații asupra altor comportamente, considerate a fi comportamente 37 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN netestate Testul îl poate întreba pe subiect dacă are prieteni sau nu, dacă merge la petreceri sau la întâlniri, dacă-i place să stea mai mult singur etc , răspunsurile primite măsurând comportamentul introvert sau extrovert; b) materiale auxiliare: bi - manual și, eventual manual tehnic, în care se prezintă, în mod obligatoriu, următoarele: - ce urmărește să măsoare testul, deși intenția poate să apară din titlu; - autorul sau autorii, reviziile efectuate, istoricul testului; - cui se adresează (categoria socio-profesională, vârstă, sex etc ); - caracteristicile eșantionului pe care a fost etalonat testul; - valoarea coeficientului de fidelitate (inclusiv procedurile în baza cărora s-a calculat acest coeficient (forma test-retest, forma alternantă, forma split-half etc ); - valoarea coeficientului de validitate (inclusiv procedurile în baza cărora s-a calculat acest coeficient; tipul de criteriu folosit); - precizări privind timpul de rezolvare, precauții etc ; - instrucțiuni privind cotarea rezultatelor (puncte, bonificări, penalizări etc ); - norme sau etaloane, la care se raportează răspunsurile individuale b2 - partea materială a testului, cum este cazul a testelor-aparte, a testelor de performanță: - asamblări de obiecte; - aranjări de imagini; - construcții; cuburi etc ; b3 - foi de răspuns, construite special, pentru a fi ușor de cotat; ele poartă numele de foi standard; b4 - grila sau grilele de răspuns Desigur, în cazul în care testul este computerizat el apare pe CD și multe din componentele auxiliare ale testului sunt adaptate Important este, însă, faptul că pentru multe teste există ambele forme și forma fizică, să-i spunem, și forma electronică Există însă și teste care n-au cum să fie computerizate, cum este cazul marilor baterii de inteligență (Bateria Stanford-Binet, Bateriile Wechsler etc ), mai ales datorită subtestelor de performanță ce presupun ca subiectul să facă ceva (să construiască, să identifice în imagini, să completeze anumite lipsuri etc ) Temă de reflecție/autoevaluare: Dacă dorim să cumpărăm un test ce măsoară inteligența și constatăm că vânzătorul (firma ce vinde teste) are 2 asemenea teste, pe care îl preferăm ? Deci, în baza a căror criterii ? 2 3 Funcțiile psihodiagnozei A aplica teste pe un subiect nu poate fi un simplu scop în sine Chiar dacă o facem „din curiozitate” tot aflăm ceva, deci tot ajungem la un rezultat, ceea ce înseamnă, de cele mai multe ori, un „diagnostic” În practica psihodiagnostică, însă, testele sunt folosite de către specialiști urmărindu-se scopuri foarte precise De aceea, autorii (U Schiopu, 2003) vorbește de existența mai multor funcții ale psihodiagnozei și anume: 38 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN a) surprinderea cât mai corect și cât mai exact posibil a trăsăturilor și caracteristicilor psihice individuale sau, dacă avem în vedere un grup de subiecți, evidențierea variabilității psihocomportamentale Aplicând un test de inteligență pe un grup de elevi (de exemplu, o clasă) putem să scoatem în evidență diferențele dintre ei în ceea ce privește această aptitudine Unii vor rezulta a fi foarte inteligenți, alții, cu o inteligență de nivel mediu și alții, cu un nivel de inteligență mai redus Și, știți care-i culmea ? Nu este obligatoriu ca cei cu un nivel de inteligență ridicat să aibă și cele mai bune rezultate școlare iar cei cu un nivel de inteligență sub medie să aibă cele mai slabe performanțe școlare Revenind la funcția de care ne ocupăm, putem spune că acest tip de psihodiagnostic este psihodiagnosticul diferențial; b) evidențierea cauzei sau cauzelor care au condus la conturarea unei realități psihocomportamentale, mai ales în cazul unor destructurări, dezorganizări ale sistemului psihic, luat în ansamblul său sau ale unor subcomponente ale acestuia ( psihodiagnoză etiologică); un rol foarte important îl au, în această direcție, testele proiective, mai ales testele de desen, cele care obțin informații despre subiect nu în manieră directă, ci în una indirectă, prin ceea ce desenează sau prin ceea ce „vede” în anumite desene, poze, planșe etc Dacă un copil își desenează familia, punând în centru pe tata, care apare supradimensionat, el ne „spune” indirect despre faptul că tatăl său este hiperautoritar; c) formularea unui prognostic, anticiparea evoluției psihocomportamentale în anumite situații și contexte acționale și interacționale; de exemplu, se fac testări pentru admiterea în diferite forme și nivele de învățământ, se angajează personal pentru diferite posturi de muncă sau posturi de conducere etc În baza rezultatelor la teste, desigur dacă acestea sunt bune, se oferă anumite garanții în legătură cu integrarea optimă într-o activitate viitoare Dacă admiterea la facultate s-ar face pe bază de teste (de exemplu, teste de aptitudini), în baza rezultatelor obținute, am putea anticipa că cei care au obținut scorurile cele mai mari, vor obține și performanțele școlare cele mai mari; d) sprijinirea sarcinilor pe linia consilierii școlare și vocaționale; este vorba despre acțiunile inițiate în rândul tinerilor în vederea orientării lor către formele de școlarizare și de pregătire profesională Testele psihologice ajută la depistarea capacităților, aptitudinilor, trăsăturilor de personalitate ale tinerilor Toate la un loc constituie „echipamentul” psihologic individual și, în funcție de acesta, tânărul este orientat către aceste profesii și, mai întâi, către acele forme de pregătire, în raport cu care tânărul posedă capacitățile sau însușirile psihice solicitate Ca să dăm un exemplu simplu, dacă la un tânăr constatăm că sunt bine dezvoltate aptitudinile de calcul matematic, îl vom orienta către profesiile ce solicită asemnea însușiri psihice; e) conturarea necesităților privind acordarea asistenței psihologice în forma consilierii psihologice și psihoterapiei De multe ori, specialiștii apelează la diferite teste psihologice (forme obiective de măsurare) pentru a preciza mai bine condiția psihică a subiectului (poate fi vorba de anumite stări accentuate de tensiune psihică, poate fi vorba de anumite tendințe psihopatologice etc ) Apoi, se precizează tipul de intervenție, cum ar fi tratamentul psihoterapeutic și 39 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN chiar psihofarmacologic La sfârșitul programului de terapie și asistență se pot iarăși aplica teste psihologice pentru a se vedea dacă s-au produs sau nu modificări, evident, în sens pozitiv De exemplu, se poate constata că subiectul nu mai este la fel de depresiv sau la fel de anxios așa cum era la început; f) evidențierea cazurilor de abatere de la etalonul privind dezvoltarea normală psihointelectuală și psihocomportamentală Specialiștii în domeniul psihologiei dezvoltării au elaborat anumite etaloane privind dezvoltarea psihică De exemplu, pentru copiii mici, de o anumită vârstă se știe cum trebuie să se prezinte ei din punct de vedere psihologic: câte cuvinte pot să folosească, ce tipuri de acțiuni pot să facă, cum trebuie să se raporteze la cei din jur, cum trebuie să răspundă la anumiți stimuli afectogeni etc Unii copii pot să „țină” pasul cu cerințele etalonului, alții, însă, nu și aceasta din multiple motive: n-are cine să se ocupe de ei, nu frecventează instituțiile preșcolare, stare de sănătate precară, lipsuri materiale etc Cu ajutorul testelor psihologice se poate stabili dacă copilul prezintă anumite rămâneri în urmă pe linia dezvoltării și cât de grave sunt acestea În funcție de rezultate se trece apoi la fundamentarea științifică a unor programe corectiv-recuperative g) evaluarea și validarea unor programe de învățare și formare profesională și, pe de altă parte, în baza rezultatelor, fundamentarea unor noi programe, realizarea unor corecții sau, dacă este cazul, înlocuirea totală a unor programe; h) formarea capacităților de cunoaștere și autocunoaștere Este cunoscut faptul că atunci când se pune problema să facem evaluări referitoare la propria noastră persoană sau în raport cu alte persoane, putem să greșim din cauza subiectivismului Astfel, putem să ne supraapreciem sau să ne subapreciem iar atunci când ne raportăm la altă persoană, de asemenea, putem să o supraapreciem sau să o subapreciem Or, testele psihologice, în calitatea lor de mijloace obiective de evaluare, ne ajută să surprindem realitatea așa cum este ea Folosind mai des testarea psihologică, ne putem aștepta și la realizarea unor corecții privind „grilele” de evaluare pe care le folosim în evaluarea altor persoane sau pentru autoevaluare Temă de reflecție/autoevaluare: Ce credeți că trebuie făcut dacă, în urma testării psihologice, constatăm că un copil depășește cu mult nivelul de dezvoltare psihică valabil pentru nivelul lui de vârstă ? Întrebări de autoevaluare: 1 De ce credeți că există mai multe definiții date testelor psihologice ? 2 Care sunt cele mai importante elemente de asemănare a multiplelor definiții formulate ? 3 Ce înseamnă măsură obiectivă a unui eșantion de comportament ? 4 Ce înseamnă măsură standardizată a unui eșantion de comportament ? 5 În ce constă „echipamentul” complet al unui test psihologic ? 6 La ce ne folosește manualul testului ? 7 În raport cu ce elemnte putem stabili valoarea testului psihologic ? 8 Care sunt principalele funcții ale psihodiagnozei ? BIBLIOGRAFIE MINIMALĂ 40 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 1 CLINCIU, AUREL, ION 2005) Psihodiagnostic Brașov: Edit Universității din Brașov 2 ALBU, M (1998) Construirea și utilizarea testelor psihologice Cluj-Napoca: Clusium 3 SCHIOPU, U (2003) Introducere în psihodiagnostic București: Ed Pro-Humanitas Unitatea de învățare 2 Clasificarea testelor psihologice Cuprins: 2 1 Clasificarea realizată de U Schiopu 2 2 Clasificarea realizată de H Pitariu 2 3 Cum depășim multiplele clasificări ? Obiective: La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • cunoască criteriile de clasificare a testelor propuse de U Schiopu; • cunoască criteriile de clasificare a testelor propuse de H Pitariu; • stabilească în ce măsură unele criterii de clasificare sunt exclusive sau nu • diferențieze și alte criterii de clasificare a testelor psihologice Clasificarea testelor realizată de U Schiopu Mai întâi, trebuie să precizăm faptul că există un număr impresionant de teste psihologice Nimeni nu știe numărul lor exact, dar se vorbește de existența a mii de teste În unele țări, cum este cazul, mai ales, a SUA, psihodiagnosticul este foarte bine dezvoltat și foarte bine reglementat Sunt foarte multe studii efectuate pentru a se urmări calitățile psihometrice și în ce măsură ele sunt utile în practică Având în vedere că există extrem de multe teste, se ridică problema clasificării lor și, legat de aceasta, a criteriilor de clasificare Desigur, mai mulți autori au încercat să realizeze clasificări, însă noi ne vom referi la doi autori români U Schiopu (2003) reușește să diferențieze următoarele tipuri de clasificări: a) clasificări ce se bazează pe sarcinile psihodiagnozei, adică pe structura obiectivelor ce caracterizează testele unui sistem de diagnoză; b) clasificări ce se bazează pe diferențele semnificative de strategie inclusă în structura de ansamblu a bateriei; c) clasificări ce se bazează pe tipul de material administrat în teste și pe caracteristicile acestuia; d) clasificări ce se bazează pe diferențe în ceea ce privește forma de administrare a testelor; e) clasificări ce se bazează pe caracteristicile tipurilor de răspunsuri solicitate; f) clasificări ce se bazează pe tipurile de răspunsuri primite Clasificări în funcție de scopul urmărit Putem diferenția: - teste de cunoștințe sau teste pedagogice; - teste de inteligență; - teste de aptitudini; - teste pentru măsurarea unor abilități senzorio-motorii; 41 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN - teste de atenție; - teste de memorie; - teste de personalitate; - teste de sociabilitate; - teste de creativitate; - teste pentru măsurarea temperamentului; - teste de interese; Unele dintre aceste categorii de teste, la rândul lor, sunt profilate mai precis, în funcție de obiectivul urmărit Ex 1 - testele de inteligență pot fi: - teste de inteligență generală; - teste de inteligență tehnică; - teste de inteligență abstractă; - teste de inteligență socială; - teste de inteligență emoțională; - teste de inteligență kinestezică Ex 2 - testele de atenție pot fi teste care urmăresc ca obiective: - concentrarea atenției; - stabilitatea atenției; - mobilitatea atenției; - distributivitatea atenției Ex 3 - testele de memorie pot fi: - pentru memoria cifrelor, a figurilor; - pentru memoria topografică Ex 4 - testele de aptitudini pot fi: - pentru aptitudini tehnice; - pentru aptitudini numerice, matematice; - pentru aptitudini artistice; - pentru aptitudini verbale; - pentru aptitudini pedagogice; - pentru aptitudini organizatorice Clasificări ce se bazează pe diferențele semnificative de strategie inclusă în structura de ansamblu a bateriei Acest criteriu vizează, practic, nivelul de corelație dintre diferite teste În această privință pot să existe următoarele situații: a) între două teste poate să nu existe niciun fel de legătură (deci, nivel de corelație = 0), ele urmărind să măsoare în mod independent caracteristici psihice total diferite; b) între teste poate să existe o corelație pozitivă, cu valoarea coeficientului de corelație ce tinde către valoarea + 1, atunci, mai ales, când măsoară aceeași însușire psihică Se poate da, ca exemplu, nivelul înalt de corelație dintre două baterii de inteligență, cum ar fi cazul Bateriilor Stanford-Binet și Wechsler; c) între mai multe teste poate apare situația intercorelării unor factori, cum ar fi cazul factorilor de grup; de exemplu: factorul verbal, factorul 42 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN numeric, factorul spațial Mai multe teste pot fi saturate diferit în ceea ce privește fiecare dintre acești factori Clasificări în funcție de materialele și caracteristicile materialelor utilizate: a) trebuie diferențiate, mai întâi, testele „creion-hârtie”, denumire generică ce presupune răspunsul scris pe foi de răspuns, de testele- aparate, pe de o parte (de exemplu, pompa Schultz, strungul Lahy etc ) și testele ce folosesc diferite materiale, pe de altă parte (de exemplu, cuburile Kohs, asamblarea de imagini etc ); b) tot din perspectiva acestui criteriu, pot fi diferențiate testele verbale și testele nonverbale, prima categorie bazându-se pe utilizarea limbajului și pe comprehensiunea verbală A doua categorie măsoară o serie de capacități psihice care nu sunt condiționate de limbaj și ele pot fi aplicate celor ce prezintă unele handicapuri și celor care provin dintr-un mediu cultural modest sau dintr-un mediu cultural străin; Clasificări privind forma de administrare În funcție de acest criteriu, testele pot fi: individuale sau colective Chiar după denumire, cele individuale se aplică exclusiv unui singur subiect; de exemplu, bateria de inteligență Stanford-Binet, testul Bayley pentru copiii mici, testele proiective etc ) Ele prezintă marele avantaj că subiectul poate fi observat tot timpul cât i se aplică testul Testele colective se aplică pe grupuri mai mari sau mai mici de subiecți Desigur ele se aplică și individual Prezintă avantajul că în timp scurt pot fi testați mulți subiecți; Clasificări în funcție de tipul de răspuns solicitat În raport cu acest criteriu testele pot fi grupate astfel: a) teste cu răspuns la alegere; este cazul unor teste de personalitate, la care se alege un răspuns din două posibilități, de tipul „Da”, „Nu” sau se folosesc scale de răspuns, de tipul „în foarte mare măsură, în mare măsură, în oarecare măsură, în mică măsură, în foarte mică măsură”; de asemenea, este cazul testelor de cunoștințe, la ai căror itemi există mai multe răspunsuri la alegere, printre care există și răspunsul corect; b) teste cu un singur răspuns bun, cum este cazul, mai ales, a testelor de inteligență și a testelor de aptitudini Subiectul oferă ca răspuns fie un număr, fie un cuvânt, fie o figură sau o imagine etc Răspunsul dat este corect sau nu; c) teste cu răspuns liber, cum este cazul, mai ales, a testelor proiective, și mai ales a celor pe bază de planșe (de exemplu, testul Rorschach, Testul T A T), în cadrul cărora subiectul este lăsat liber să ofere răspunsul În cazul acestor teste, însă, dificultățile de cotare și de interpretare a răspunsurilor sunt mult mai mari, necesitând o mare specializare din partea practicienilor; Clasificări în funcție de formele și tipurile de rezultate obținute Plecând de la acest criteriu, putem diferenția două categorii de teste: a) teste sintetice, care, în urma aplicării lor, oferă un rezultat global, de genul: QI - coeficient de inteligență; QD - coeficient de dezvoltare; Q Kre - coeficient de creativitate; Q E - coeficient emoțional; b) teste analitice, care, în urma aplicării lor, permit conturarea profilului psihologic Este cazul, mai ales, a testelor de 43 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN personalitate, chestionare sau inventare de personalitate, care conțin mai multe scale Teme de reflecție/autoevaluare: 1 Care sunt criteriile folosite de U Schipou pentru clasificarea testelor ? În ce măsură putem considera că aceste criterii sunt suficiente ? 2 2 Clasificarea realizată de H Pitariu (1993) Această clasificare este făcută în funcție de elementele care dau testului calitatea de probă standardizată: conținutul, administrarea și cotarea În funcție de conținut testele pot fi împărțite în două categorii: 1 după sarcina și 2 după modul de procesare După sarcina cu care trebuie să se confrunte persoana examinată, testele se pot împărți astfel: a) teste verbale, care, la rândul lor, pot fi orale sau scrise (cele de tip „creion-hârtie”); b) teste nonverbale, care pot fi împărțite în două subcategorii: b1 - cu manipulare de aparate și piese; b2 - administrate cu ajutorul calculatorului; c) teste de performanță (subiectului i se solicită să opereze la un aparat, să completeze unele figuri lacunare sau să reproducă diferite imagini cu ajutorul unor cuburi etc ) După modul de procesare implicat (adică la ce i se cere persoanei să facă pentru a da un răspuns), testele pot fi împărțite în două categorii: a) teste intelective, care, la rândul lor, pot fi împărțite în următoarele subcategorii: a1 - teste de performanță; a2 - teste de aptitudini; a3 - teste de cunoștințe; a4 - teste situaționale; b) teste nonintelective (chestionare/inventare de personalitate) Criteriul administrarea testelor După modul în care sunt administrate, ele pot fi clasificate în termeni de eficacitate a examenului psihologic și în funcție de unele exigențe legate de timpul de examinare În funcție de eficacitate, testele pot fi împărțite în două grupe: a) teste individuale; b) teste de grup sau colective; În funcție de timp, testele pot fi grupate, de asemenea, în două grupe, respectiv: a) teste de viteză- cu limită de timp; b) teste de randament, care pot fi: b1- cu limită de timp; b2 - cu timp nelimitat Tot în raport cu criteriul administrare, putem împărți testele în două grupe: 1 teste standardizate; 2 teste nestandardizate Criteriul cotarea testelor Tehnica de cotare a unui test poate fi obiectivă sau subiectivă De aceea, testele pot fi clasificate în două categorii: a) teste obiective - performanța se apreciază după o procedură fixă, impersonală, de către un simplu operator sau cu ajutorul unei mașini de cotare; b) teste proiective (completare de fraze, pete de cerneală), cele care prezintă în cotare o doză mare de subiectivism 44 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Teme de reflecție/autoevaluare 1 Care sunt criteriile folosite de H Pitariu pentru clasificarea testelor ? 2 În ce măsură aceste criterii sunt suficiente pentru clasificarea testelor ? Care sunt elementele de asemănare și de diferență dintre clasificarea realizată de U Șchiopu și cea realizată de H Pitariu ? Cum putem depăși inconvenientul „multiplelor” clasificări ? Clasificările realizate nu trebuie să fie privite în mod exclusivist Interferențele pot fi considerate și în sens vertical De exemplu, dacă luăm în analiză un anumit test de inteligență și urmărim clasificarea făcută de U Șchiopu vom constata că îl putem regăsi în una din categoriile de la fiecare criteriu Astfel, în funcție de: a) criteriul obiective - el măsoară inteligența generală; b) criteriul strategie - testul are un caracter eterogen; c) criteriul material administrat - test verbal, de tip „creion-hârtie”; d) forma de administrare - se aplică individual; e) răspunsuri solicitate - un singur răspuns la fiecare item; f) tipul de rezultate - valoarea Q I , care este un rezultat sintetic Mai trebuie să facem o precizare În niciuna din clasificările făcute nu sunt luate în atenție testele care sunt oferite nu neapărat psihologilor specialiști, ci nespecialiștilor De aceea, în funcție de gradul de standardizare, credem că putem diferenția 3 categorii de teste: a) teste standardizate, cele care pot fi aplicate numai de către psihologi; b) teste semistandardizate, cele care sunt destinate altor categorii de beneficiari, cum ar fi: cadrele didactice, părinții, personal medical, asistenți sociali etc c) teste nestandardizate, cele care se folosesc mai mult pentru ocuparea timpului liber În finalul acestei discuții privind clasificarea testelor subliniem faptul că activitatea de psihodiagnoză nu se reduce și nu trebuie să se reducă numai la aplicarea unui test sau a unui grup de teste Aplicarea efectivă a unor instrumente psihodiagnostice este doar o etapă în succesiunea de etape ale activității de psihodiagnoză care începe cu cunoașterea subiectului prin intermediul observației conduitei, a anamnezei, a unei microanchete etc Întrebări de autoevaluare: 1 Ce criterii folosește U Schiopu în clasificarea testelor psihologice ? 2 Cum sunt împărțite testele în funcție de criteriul obiective urmărite ? 3 Ce criterii folosește H Pitariu în clasificarea testelor psihologice ? 4 Dați un exemplu de test și încercați să-l plasați în funcție de cerințele clasificării realizate de U Șchiopu 5 Dați un exemplu de test și încercați să-l plasați în funcție de cerințele clasificării realizate de H Pitariu 45 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 4 În ce măsură utilizarea calculatorului în testarea psihologică afectează clasificarea făcută de U Schiopu ? 4 Care sunt elementele de asemănare și de diferență dintre cele două clasificări ? 5 Cum pot fi depășite limitele impuse de multiplele clasificări ? 6 Ce sunt și ce rol joacă testele semistandardizate ? 7 Ce sunt și ce rol joacă testele nestandardizate ? BIBLIOGRAFIE MINIMALĂ ALBU, M , PITARIU, H (1993), Proiectarea testelor de cunoștințe și examenul asistat de calCulator Cluj-Napoca: Casa cărții de știință CLINCIU, ION, AUREL (2005), Psihodiagnostic Brașov: Editura Universității SCHIOPU, URSULA (2003), Introducere în psihodiagnostic Editura Pro-Humanitas Unitatea de învățare 3 Testele psihologice și Codul deontologic Cuprins: 3 1 Standarde pentru testarea psihologică 3 2 Psihologia ca profesie și Codul deontologic Obiective: La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • cunoască preocupările la nivel internațional privind crearea standardelor pentru activitatea psihodiagnostică; • cunoască cerințele privind calificările psihologului care aplică anumite categorii de teste; • interpreteze corect prevederile existente în cadrul Codului deontologic; • cunoască atribuțiile Comisiei de deontologie din cadrul Colegiului Psihologilor din România 3 1 Standarde pentru testarea psihologică La nivel internațional au existat și există în continuare preocupări privind elaborarea unor standarde cât mai înalte pentru testarea psihologică Asemenea preocupări pot fi grupate în următoarele categorii: 1 Standarde înalte pentru constructorii și utilizatorii de teste Trebuie, mai întâi, subliniat faptul că, aproape paralel cu publicarea primelor teste și, prin urmare, cu nașterea psihometriei, au apărut și primele preocupări privind protejarea activității psihodiagnostice Încă din 1895 American Psychological Association (APA) a format primul său comitet ce urma să se ocupe de măsurarea mintală și de modul în care se aplică testele noi Un alt comitet APA a fost înființat în 1906, cu misiunea de a se ocupa de problemele de standardizare În 1923 membrii APA resping recomandările făcute de un comitet privind monitorizarea modului de utilizare a testelor de către nepsihologi În 1954 APA publică Technical Recommendations for Psychological Tests and Diagnostic Tests, document care stabilea standardele pentru testarea psihologică, precum și recomandările tehnice În anul imediat următor, o altă organizație profesională - The National Educational 46 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Association-, lucrând în colaborare cu National Council on Measurement Used in Education (cunoscut în prezent sub numele The National Council on Measurement), a elaborat și publicat Technical Recommendations for Achievement Tests De-a lungul anilor au apărut din ce în ce mai multe publicații ale APA în care regăsim serioase preocupări privind asigurarea unui înalt nivel de profesionalism în utilizarea testelor psihologice (Gregory, R J , 1996) Iată unele dintre cele mai importante: - Standards for Educational and Psychological Tests and Manuals (1966); - Automated Test Scoring and Interpretation Practices (1966); - Standards for Educational andPsychological Tests (1974); - Principles for the Validation and Use of Personnel Selection Procedures (1980); - Speciality Guidelines for the Delivery of Services by Clinical Psychologists (1981); - Speciality Guidelines for the Delivery of Services by Industrial/Organizational Psychologists (1981); - Speciality Guidelines for the Delivery of Services by School Psychologists (1981); - Ethical Principles of Psychologists (1981, 1992); - Standards for Educational andPsychological Testing (1985); - Guidelines for Computers-Based Tests andInterpretations (1986); - Standards for Educational and Psychological Testing (1993) The National Association of School Psychologists (NASP) a adoptat, în 1984, Principles for Professsional Ethics, un ghid extrem de util pentru selecția, utilizarea și interpretarea testelor psihologice Acesta a fost revizuit și adoptat în 1992 Asociația Psihologilor Americani a manifestat întotdeauna grijă pentru ca testele să fie aplicate la un nivel înalt științific, dar numai de către cei calificați pentru aceasta Încă din 1950, un comitet al său pentru Ethical Standards for Psychology a publicat un raport, intitulat Ethical Standards for the Distribution of Psychological Tests and Diagnostic Aids Printre altele, acest raport diferenția trei niveluri de calificare pentru utilizarea testelor și anume: - Nivelul A: teste care pot fi administrate, scorate și interpretate adecvat cu ajutorul manualului și al unei orientări generale (de exemplu, teste de achiziție); - Nivelul B: teste care reclamă anumite cunoștințe tehnice privind construirea și utilizarea testelor, precum și cunoștințe din alte domenii ale psihologiei, precum: psihologia diferențială, statistica psihologică, psihologia personalului, psihologia adaptării, orientarea vocațională (de exemplu, teste de aptitudini, inventare de adaptare aplicabile populației normale) - Nivelul C: teste care solicită cunoștințe de înalt nivel privind testarea și din alte domenii de suport, la care trebuie să se adauge supervizarea din partea unor specialiști în aceste domenii (de exemplu, teste proiective, teste de inteligență individuale) Acest raport a fost integrat apoi în publicația APA's Ethical Standards of Psychologists (1953) și citat în Standards for Educational and Psychological Tests and Manuals (1966) 47 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN În Ethical Principles of Psychologists (1992) sunt făcute precizări și mai clare privind calificările utilizatorilor de teste Astfel, Principiul A afirmă că psihologii „oferă numai acele servicii și utilizează numai acele tehnici pentru care sunt calificați prin educație, formare sau experiență Standardul etic 2 02 adaugă: „psihologii se abțin de la utilizarea necorespunzătoare a tehnicilor de măsurare și, totodată, iau măsuri pentru a preveni ca alții să utilizeze defectuos informația pe care o oferă aceste tehnici” Cu toate măsurile luate s-a constatat că, în practică, se întâlnesc frecvente abateri De aceea, APA, împreună cu The American Research Association, The National Council on Measurement in Education și cu foarte multe edituri ce publicau teste, a înființat The Joint Committee on Testing Practice (JCTP) Acesta a adoptat, în 1988, The Code of Fair Testing Practices in Education, care descrie obligațiile celor care construiesc teste, precum și ale celor ce le aplică, în patru arii: a) dezvoltarea/selectarea testelor; b) interpretarea scorurilor; c) strădania pentru corectitudine; d) informarea subiecților 2 Creșterea obiectivitătii în aplicarea și interpretarea testelor Deși în literatura psihodiagnostică apar lucrări favorabile testelor proiective, practicienii tind tot mai mult să se orienteze către testele obiective și, în special către chestionare și inventare de personalitate, având în frunte testul Minnesota Multiphasic Personality Inventory, varianta revizuită MMPI-2 Un indicator al acestei tendințe îl reprezintă creșterea numărului de referințe favorabile acestui test față de alte teste proiective și , mai ales, față de testul Rorschach, așa cum apare în The Mental Measurement Yearbook și în alte surse (de exemplu, la Polyson, Peterson și Marshall, 1986) O altă tendință către creșterea obiectivității se manifestă în continuarea cercetărilor privind testarea psihologică Deși există mii de studii publicate în legătură cu testul MMPI, respectiv, MMPI-2, interesul pentru investigare și cercetare nu numai că nu încetează, ci, dimpotrivă, se accentuează de la un an la altul și va crește cu siguranță în viitor În acest fel se prefigurează o creștere substanțială a orientării practicienilor către testele de personalitate, în detrimentul unor teste proiective Temă de reflecție/autoevaluare: Care ar fi consecințele absenței preocupărilor privind elaborarea unor standarde pentru activitatea psihodiagnostică ? 3 2 Psihologia ca profesie și Codul deontologic Psihologia este o profesie foarte căutată, dovadă fiind, înainte de orice, numărul mare de candidați ce se prezintă la examenul de admitere la facultățile de profil După absolvire, psihologul poate lucra în diverse domenii, cum ar fi, instituții școlare, firme, instituții militare, organizații guvernamentale sau neguvernamentale, instituții medicale, în cadrul unor cabinete particulare etc Mai peste tot el apelează la testul psihologic pentru a evalua subiectul Această acțiune de evaluare este de mare importanță și ea ridică serioase probleme privind responsabilitatea specialistului În baza rezultatelor la teste se stabilesc diagnostice și se iau decizii privind persoana subiectului Dacă acestea nu sunt corecte și 48 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN concordante cu realitatea, cel care suferă este subiectul și nimeni nu are voie să se „joace” cu soarta acestuia În urma evaluării psihologice se poate determina dacă subiectul este apt sau nu pentru o anumită slujbă, dacă prezintă un anumit nivel de anormalitate psihică, dacă este sau nu în posesia unor capacități și aptitudini etc Dar în cazul în care diagnosticul este greșit ce se întâmplă cu subiectul ? Haideți să ne gândim ce se întâmplă cu un copil preșcolar care, în urma testării psihologice, este orientat către formele învățământului special, deși, ulterior se poate constata că acest copil prezintă numai niște rămâneri în urmă pe linia dezvoltării psihice, ușor recuperabile Deci utilizarea testelor psihologice presupune mari răspunderi, de ordin profesional, de ordin moral și chiar de ordin juridic Așa se explică de ce au existat și există în continuare preocupări pentru elaborarea unor standarde și, respectiv, a unor coduri deontologice În continuare noi vom face precizări mai ales în baza Codului deontologic al Asociației Psihologilor Americani (APA), intitulat Ethical Principles of Psychologists (v și Anastasi, A , 1996) Și din acesta vom menționa în special ceea ce ține de Tehnicile de măsurare (Assessment Techiques) Vom lua în atenție 3 categorii de probleme: a) legate de construcția și dezvoltarea testelor: - cei care construiesc teste și le pun în circuit au obligația de a evita graba și superficialitatea lansându-le în mod prematur pentru uzul general Iar atunci când un test este distribuit numai în scopuri de cercetare, această condiție trebuie specificată foarte clar; - manualul trebuie să ofere informații cât mai complete și mai corecte asupra testului, evitându-se tendințele publicitare care să pună testul într-o lumină favorabilă; - testele nu trebuie să fie publicate în ziare, magazine, cărți populare, fie în scopuri descriptive, fie în scop de autoevaluare; - testarea prin poștă sau telefonic este o practică contraindicată, deoarece, pe lângă alte riscuri, este contraindicat a se interpreta rezultatele la test în absența altor informații referitoare la subiectul examinat; - cumpărarea, procurarea testelor este accesibilă în mod strict numai psihologilor calificați Fiecare catalog trebuie să cuprindă, în mod obligatoriu, cerințele ce trebuie îndeplinite de către solicitant sau cumpărător De exemplu, un student care are nevoie de un test particular pentru sarcini de învățare sau pentru cercetare trebuie să prezinte o comandă de cumpărare contrasemnată de către profesorul lor, care își asumă responsabilitatea pentru corecta utilizare a testului b) legate de protecția subiectului; un factor deosebit de relevant îl constituie scopul urmărit de testarea psihologică, care poate fi: a) consilierea indivduală, cunoașterea și autocunoașterea unor probleme și aspecte psihice individuale; b) deciziile instituționale privind selecția și clasificarea subiecților; c) cercetarea psihologică Este evident faptul că, în raport cu scopul urmărit, subiectul se raportează diferit la testare și la examinator Dacă un subiect se prezintă din proprie inițiativă la un cabinet particular, solicitând ajutor pentru anumite probleme psihice cu care se confruntă, ei vor fi mult mai cooperanți decât subiecții ce sunt solicitați instituțional să accepte acțiunea de testare Indiferent însă de scopul urmărit de acțiunea de testare, apare obligația ca subiectul să fie informat (consimțământul 49 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN informat) asupra: ce se urmărește prin acțiunea de testare, tipul de informații solicitate, modul de utilizare a rezultatelor Consimțământul informat trebuie să fie obținut de la subiect personal sau de la reprezentantul său legal, existând și unele excepții și anume: - când testarea fără consimțământ este reglementată de lege sau de unele dispoziții guvernamentale (de exemplu, programe de testare la nivel național); - când testarea apare ca o componentă a activității școlare (de exemplu, testări în scop de evaluare sau de validare a unor programe educaționale la nivel instituțional școlar; - când consimțământul apare în mod implicit (de exemplu, testările în vederea admiterii în unele instituții educaționale sau angajării de personal c) legate de confidențialitate; aici se pune întrebarea cine are acces la rezultatele obținute în urma aplicării testelor Evident, în primul rând, examinatorul, cel care a aplicat testul Apoi subiectul are dreptul de a avea acces la rapoartele testării, deși, în cazul minorilor, și părinții au dreptul la asemenea informații În cazul în care apar anumite conflicte între dreptul copilului de a fi protejat și dreptul părintelui de a avea acces la rezultatele testării, mai ales în cazul în care relațiile părinți-copii pot fi principala cauză a unor probleme psihice cu care se confruntă copilul Desigur, dacă este vorba despre un drept el trebuie respectat, dar, în cazurile conflictuale foarte important este modul în care se face comunicarea unor informații în așa fel încât aceasta să nu se soldeze cu efecte negative asupra copilului O altă problemă legată de păstrarea confidențialității este cea privind accesul la rezultatele testării psihologice a celei de-a treia persoană, alta decât examinatul (sau părintele minorului) și examinatorul În acest caz se aplică principiul general, conform căruia informațiile nu pot fi oferite celei de-a treia persoană fără consimțământul informat al subiectului Așa după cum am mai menționat, în cadrul Consiliului Psihologilor din România activează, pe lângă Comisia metodologică și comisiile aplicative, Comisia de deontologie Aceasta a elaborat „Codul deontologic al profesiei de psiholog cu drept de liberă practică” și „Codul de procedură disciplinară” Codul deontologic cuprinde un set de principii, standarde etice generale, standarde specifice și dispoziții finale Legat de problematica testării psihologice, ne interesează, mai ales, standardele de competență, standardele cu privire la relațiile umane, standardele de confidențialitate, standardele de înregistrare, prelucrare și păstrare a datelor (din cadrul standardelor generale) și capitolul „Evaluare și diagnoză” (din cadrul standardelor specifice) Ceea ce este foarte important legat de conținutul acestui cod este precizarea și clarificarea unor noțiuni și a unor sintagme Astfel, ca să dăm câteva exemple: 1 datele de evaluare/diagnoză pot fi scoruri brute și standardizate, răspunsurile subiectului la stimuli sau la întrebările la test, notele, înregistrările și consemnările psihologului, declarațiile și comportamentul clientului în timpul examinării Psihologii vor oferi datele obținute, sub formă de rezultate clientului și, dacă este cazul, unor terți numai cu consimțământul clientului, sau fără acordul acestuia în condițiile prevăzute de lege; 2 materialele de evaluare/diagnoză cuprind manualul instrumentului, instrumentul propriu-zis, protocoale, întrebările sau stimulii utilizați, alte fișe sau formulare necesare și nu includ datele de evaluare/diagnoză; 3 psihologii se vor 50 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN asigura că în procesul de obținere a consimțământului informat următoarele puncte au fost înțelese: scopul și natura activității; responsabilitățile mutuale; beneficiile și riscurile; alternativele; circumstanțele unei încetări a acțiunii; opțiunea de a refuza sau de a se retrage în orice moment, fără a suferi vreun prejudiciu; perioada de timp în care e valabil consimțământul; modul în care se poate retrage consimțământul dacă se dorește acest lucru; 4 psihologii vor informa persoanele fără capacitate deplină de a-și da consimțământul și persoanele pentru care testarea este cerută de reglementările legislative, cu privire la natura și scopul serviciilor de evaluare propuse, folosind un limbaj ușor de înțeles pentru persoana care urmează să fie evaluată; 5 psihologii care folosesc serviciile unui traducător vor cere consimțământul clientului pentru a folosi serviciile acelui traducător, se vor asigura că se va menține confidențialitatea rezultatelor, securitatea instrumentelor, inclusiv a documentelor de evaluare/diagnoză Orice psiholog format sau aflat în procesul de formare trebuie să cunoască foarte bine conținutul celor două coduri, ca, de altfel și celelalte acte normative aprobate de Colegiul Psihologilor din România Temă de reflecție/ autoevaluare Încercați să listați cât mai multe consecințe negative posibile ale nonexistenței și nerespectării prevederilor unui Cod deontologic Întrebări de autoevaluare: 1 Enumerați câteva tipuri de preocupări existente la nivel internațional privind elaborarea de standarde pentru testarea psihologică, 2 Ce credeți că înseamnă standarde ? 3 De ce se face diferențierea între 3 nivele de calificare pentru obținerea dreptului de a aplica anumite teste ? 4 Care este explicația faptului că se prognozează o creștere a preferinței practicienilor pentru testele obiective (în special, testele de personalitate), în detrimentul testelor proiective ? 5 Enumerați câteva cerințe etice privind construcția și dezvoltarea testelor 6 Enumerați câteva cerințe privind protecția subiectului, a celui examinat 7 Ce tipuri de coduri a elaborat Comisia de deontologie și disciplină a Consiliului Psihologilor din România ? BIBLIOGRAFIE MINIMALĂ ANASTASI, ANA (1996) Psychological Testing (7th ed ) New York: Macmillan COLEGIUL PSIHOLOGILOR DIN ROMÂNIA (2006), Acte normative Ediție adăugită MITROFAN, NICOLAE (2001), Psihometria și direcțiile ei de dezvoltare la început de mileniu În M Zlate (coord ), Psihologia la răspântia mileniilor Iași: Polirom CLINCIU, ION, AUREL (2005), Psihodiagnostic Brașov: Editura Universității 51 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Modulul III - Caracteristicile psihometrice ale testelor Unitatea de învățare 1 Ce sunt caracteristicile psihometrice ale testelor ? Cuprins: 1 1 Precizări conceptuale 1 2 Fidelitatea și validitatea, caractersitci psihometrice de bază 1 3 Alte caracteristici psihometrice Obiective: La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • cunoască ce sunt caracteristicile psihometrice ale testelor; • evalueze puterea diagnostică a testelor, plecând de la caracteristicile lor psihometrice; • cunoască obligațiile constructorilor de teste privind caracteristicile psihometrice 1 1 Precizări conceptuale Testele psihologice pot fi asemănate, până la un punct, cu alte instrumente de măsură, care pot fi evaluate în ceea ce privește calitatea și gradul lor de precizie Marele psiholog Alfred Binet ne avertiza pe noi psihologii să nu considerăm testul ca pe un simplu cântar, pe care dacă te urci, afli imediat ce greutate ai Va trebui tot timpul să ținem minte acest avertisment Dar pentru discuția noastră, putem să facem această comparație Există cântare de foarte mare precizie și de foarte bună calitate, există cântare de proastă calitate și cu un grad de precizie îndoielnic Așa și testele Unele măsoară cu mare exactitate anumite capacități și însușiri psihice, altele, însă, nu sunt foarte precise, nivelul de credibilitate acordat rezultatelor obținute fiind mai redus Un test foarte bun și foarte precis este un test sound, însemnând puternic, solid și prezintă un foarte înalt grad de credibilitate Revenind la comparația cu cântarul, acesta este făcut pentru a măsura greutatea cu el, deci nu poate fi folosit pentru a măsura altceva, înălțimea, de exemplu Și dacă este construit să măsoare greutatea, atunci trebuie să-și facă foarte bine “datoria” Așa și cu testul psihologic El este construit pentru a măsura o anumită însușire psihică și, este de așteptat ca să o facă foarte bine Rezultatele obținute trebuie să reflecte cât mai bine realitatea Făcând toate combinațiile posibile, cel puțin teoretic, putem întâlni următoarele situații: a) testul măsoară ceea ce și-a propus să măsoare și măsoară foarte bine (soundness la nivel maximal); b) testul nu măsoară ceea ce și-a propus să măsoare și măsoară prost ceea ce măsoară de fapt; c) testul măsoară ceea ce și-a propus să măsoare, dar măsoară prost; d) testul nu măsoară ceea ce și-a propus să măsoare, dar măsoară bine 52 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN ceea ce măsoară de fapt Cea mai bună situație este cea de tip a Pentru a se menține în această categorie, testul trebuie să “răspundă” pozitiv la întrebarea privind caracteristicile sale psihometrice: “Testul este fidel și valid1”? Definiție: caracteristicile psihometrice sunt acele însușiri ale testelor care asigură un înalt grad de credibilitate rezultatelor obținute în urma utilizării lor în activitatea psihodiagnostică Cele mai importante sunt fidelitatea și validitatea Și foarte important este faptul că aceste însușiri sunt măsurabile și evaluabile După cum o să vedem, ambele caracteristici psihometrice pot fi măsurate și exprimate în valori numerice: 0 50, 0 65 etc Pentru constructorii de teste apare obligația de a include, în cadrul manualului, informații privind valoarea celor două caracteristici psihometrice Și atunci este clar că, în cazul în care avem de ales între două teste care măsoară același lucru (aceeași însușire psihică), dar care prezintă valori diferite pentru cele două caracteristici psihometrice, îl vom prefera pe cel care are valorile cele mai mari Acesta este mult mai sigur în acțiunea de măsurare psihologică Și, de aici, mai apare o obligație pentru cei care construiesc teste și anume, ei trebuie să acorde o mare atenție respectării cerințelor privind cele două caracteristici psihometrice încă din fazele de început ale activității de elaborare și de construire a testelor Realizați care sunt implicațiile a ce spunem asupra “pieței” psihodiagnostice ? Fiind preferate testele care stau foarte bine la cerințele privind fidelitatea și validitatea, cele care nu corespund vor ieși imediat din competiție Și, într-adevăr, în domeniul psihodiagnozei, mai ales a construirii de noi instrumente psihodiagnostice, trebuie să existe o serioasă competiție Temă de reflecție/autoevaluare: Încercați să găsiți cât mai multe exemple de situații în care s-ar folosi teste cu slabe caracteristici psihometrice și evidențiați consecințele posibile 1 2 Fidelitatea și validitatea Definiții: a) Fidelitatea înseamnă gradul în care testul manifestă constanță în măsurare, adică dacă el este capabil să ofere o aceeași informație referitoare la subiectul testat în cazul în care acesta este supus unei noi acțiuni de testare folosind același test; b) Validitatea se referă la capacitatea testului de a măsura întotdeauna ceea ce și-a propus să măsoare Acum să explicăm puțin În cazul fidelității, dacă un subiect a obținut, de exemplu, într-o zi, în urma aplicării unui test de inteligență, un Q I = 100 și, după câteva zile, în urma reaplicării aceluiași test, ar obține un Q I = 70 ar însemna că, în primul moment el ar fi diagnosticat ca fiind normal, în ceea ce privește dezvoltarea psihointelectuală, iar în momentul 2, ar fi considerat a avea deficiențe mentale Cine ar greși în acest caz ? Evident că testul folosit, care nu dovedește fidelitate Realizați ce consecințe grave ar avea utilizarea unui asemenea test ? În limba engleză se folosește cuvântul “reliability” pentru a desemna fidelitatea testului, însemnând, mai ales, “demn de încredere” Pentru ambele caracteristici psihometrice se poate calcula valoarea unui coeficient, de aceea, putem vorbi despre coeficientul de fidelitate (rtt) și coeficientul de validitate (rxy) În cazul coeficientului de fidelitate, regăsim dublată litera “t”, ceea ce înseamnă că este vorba de aplicarea în două momente a aceluiași test (este vorba de un singur instrument), iar în cazul coeficientului de validitate, avem două litere, “x” și “y”, ceea ce înseamnă că sunt folosite două instrumente de măsură Este vorba despre testul aplicat în momentul 1 și 53 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN alt instrument de măsurare folosit în momentul 2, care este, de regulă, la mai mare distanță în timp folosit pentru a măsura comportamentul anticipat în baza rezultatelor din momentul 1 Litera “r” înseamnă coeficient de corelație și, deși el poate fi calculat în mai multe moduri, cea mai utilizată procedură este cea a lui Pearson (Pearson Product-Moment Correlation Coefficient - Coeficientul de corelație “moment-produs” al lui Pearson) Se folosește următoarea formulă: E xy rxy = N(SDx) (SDy) în care: x = deviația unei performanțe de la medie în proba x y = deviația peformanței (corespunzătoare lui x) de la medie în proba y Revenind la conceptul de fidelitate, trebuie să menționăm faptul că el a cunoscut diverse accepțiuni de-a lungul timpului Astfel, ca să exemplificăm, în Standardele APA din anii 1954 și 1966, fidelitatea însemna consistența sau stabilitatea (“Fidelitatea se referă la precizia - consistența și stabilitatea - măsurării realizate de test”) În 1974, fidelitatea era definită ca fiind “gradul în care rezultatele testării pot fi atribuite surselor sistematice de varianță” În Standardele de după 1985, apare o nouă schimbare în definirea fidelității, aceasta apărând ca fiind “gradul în care scorurile testului sunt consistente sau repetabile, adică gradul în care ele sunt afectate de erorile de măsură” Așadar, așa după cum precizează și prof H Pitariu, termenii de consistență și stabilitate continuă să fie utilizați, dar nu în sensul de consistență internă și stabilitate temporară a unui anumit comportament, ci, mai degrabă, ca reproductibilitate a rezultatelor cercetării științifice Conceptul de fidelitate este utilizat pentru a acoperi mai multe aspecte ale consistenței scorului (Anastasi, A , 1996) În primul rând, fidelitatea indică măsura în care diferențele dintre subiecții testați, evidențiate prin intermediul scorurilor obținute, se datorează diferențelor “reale” (adevărate) privind însușirea psihică măsurată și măsura în care ele sunt atribuibile erorilor șansei Să explicăm puțin mai mult În urma aplicării testului, se obține un anumit scor, numit scor brut (raw score), care poate fi exprimat cifric De exemplu, la un test de inteligență se obține scorul 120 În mod ideal, el ar trebui să reflecte exact realitatea, însă niciodatră nu se întâmplă așa, deoarece, pe parcursul activității de testare pot interveni diverși factori care scapă de sub controlul celui ce aplică testul De aceea, niciodată scorul brut nu coincide cu scorul “real” al subiectului Nu putem vorbi de utilizarea ecuației X = SR, X însemnând scorul brut iar SR, scorul real În realitate întâlnim situația evidențiată de următoarea ecuație: X = SR + E în care E = eroare Plecând de la această ecuație, putem spune: cu cât eroarea este mai mică, cu atât este de așteptat mai mult ca scorul real să se apropie de scorul brut Ce concluzie putem trage de aici ? Trebuie luate toate măsurile posibile pentru ca eroarea să fie cât mai mică Orice condiție, orice factor care este irelevant pentru scopul urmărit de un anumit test constituie o sursă pentru varianța erorii Astfel, când examinatorii încearcă să mențină uniforme condițiile testării (respectând întocmai prevederile din cadrul manualului și controlând 54 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN factorii ambianței în care se face testarea), ei reduc varianța erorii, ceea ce înseamnă că fac mult mai sigure scorurile obținute Apare, însă, o întrebare: are examinatorul posibilitatea să controleze toți factorii care pot interveni în timpul acțiunii de testare, căpătând statutul de “factor irelevant”? Răspunsul nu poate fi decât pozitiv, în practică existând cel puțin două situații: a) când controlul asupra factorilor irelevanți tinde către maximum, ceea ce înseamnă că scorul real se apropie până la identitate de scorul brut; b) când controlul asupra factorilor irelevanți tinde către minimum, ceea ce înseamnă că scorul real se îndepărtează foarte mult de scorul brut, eroarea în acest caz crescând foarte mult Dar care sunt acești factori irelevanți care pot să intervină în acțiunea de testare ? Unii autori au încercat să-i inventarieze Astfel, de exemplu, făcând o sinteză a diferitelor lucrări de specialitate, H Pitariu ne oferă următorul tablou al surselor posibile de variabilitate care pot afecta scorurile unui test I Particularități durabile și generale ale persoanei (cu influență asupra rezolvării mai multor teste: A Nivelul unor deprinderi care pot influența modul de a opera cu o serie de teste (de exemplu, un rezolvitor de cuvinte încrucișate va fi avantajat în rezolvarea unor teste) B Deprinderile și tehnicile generale solicitate în testare (de exemplu, “test de excepție pentru profesioniști” sau “test pentru necunoscuți”) C Abilitatea generală de a înțelege instrucțiunile de lucru cu testele (de exemplu, persoanele cu deficiențe intelectuale vor înțelege mai greu instrucțiunile de operare cu testul, la fel cele neobișnuite cu examinări prin teste) II Particularități durabile dar specifice ale persoanei (cu influență numai asupra unui test anume): A Specifice față de testul luat ca întreg 1 Nivelul individual de dezvoltare a abilității măsurate de acest test și care nu influențează rezolvarea altor teste (de exemplu, o persoană dominantă va obține scoruri mari la scala de “Dominanță” din cadrul testului CPI, dar nu și la scala de “Responsabilitate” 2 Cunoștințe și deprinderi specifice formei particulare a testului De exemplu, un programator va fi mai performant pe un test care solicită rezolvarea de scheme logice lacunare; sau, un ceasornicar va avea rezultate mai bune la un test de dexteritate digitală care solicită operarea cu obiecte mici); 3 Pattern-uri de răspuns stabile (de exemplu, la un test cu răspunsuri “Adevărat/Fals”, tendința de a alege opțiunea “Adevărat” în toate situațiile de indecizie) B Specifice anumitor itemi ai testului: 1 “Șansa” unei persoane în a cunoaște răspunsul la un anumit fapt particular cerut de un item (de exemplu, la un test de cunoștințe tehnice, un item poate solicita o informație pe care o cunosc doar subiecții care au citit o anumită lucrare) 2 Tipuri de itemi cu care diferiți subiecți sunt familiarizați inegal (de exemplu, existența unor itemi cu răspuns la alegere îi poate încurca pe cei nefamiliarizați cu stilul respectiv de lucru III Particularități temporare, dar generale ale persoanei (este vorba de existența unor factori incidentali care pot afecta performanțele în momentul în care este administrat testul în cauză: a) sănătatea; b) oboseala; c) motivația; d) tensiunea emoțională; e) nivelul prea 55 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN elevat al testului; f) înțelegerea mecanismelor testării în cauză; g) condițiile de administrare a testului, ca iluminat, căldură, umiditate, ventilație etc IV Particularități temporare și specifice ale persoanei (cu influență numai asupra acestui test): A Specifice față de testul luat ca întreg: 1 Înțelegerea sarcinii specifice cerute de testul în cauză (de exemplu, la un test administrat de calculator, un subiect care nu a reținut modul de utilizare a tastaturii pentru formularea răspunsului poate obține un scor care nu îl caracterizează) 2 Mici trucuri sau tehnici neortodoxe de rezolvare a testului (de exemplu, la un test de cunoștințe alcătuit din itemi cu răspunsuri la alegere, care nu penalizează răspunsurile greșite, marcarea tuturor răspunsurilor propuse la fiecare întrebare conduce la obținerea unui scor înalt) 3 Nivelul de antrenare în rezolvarea unor sarcini specifice cerute de testul în cauză (intervine mai ales în operarea cu teste psihomotoare; de exemplu, la un test de viteză de reacție, administrat pe calculator, o persoană familiarizată cu tastatura calculatorului respective este avantajată) 4 ”Setul” sau dispoziția momentană pentru rezolvarea testului (de exemplu, o persoană foarte ocupată în ziua testării poate să i se pară prea lung testul CPI, răspunzând, în consecință, la întâmplare) B Specifice față de unii itemi ai testului: 1 Fluctuații și ideosincrazii ale memoriei umane (de exemplu, la un test de cunoștințe de geografie, unui elev căruia nu-i place să opereze cu numere, nu-și va aminti înălțimile unor munți) 2 Fluctuații neprevăzute ale atenției sau percepției, suprapuse peste nivelul general de performanță caracteristic unei persoane (de exemplu, la un test administrat de calculator, subiectul poate, din neatenție, să apese pe o tastă greșită și să nu observe acest lucru) V Factori sistematici sau de “noroc” care afectează administrarea testului sau evaluarea performanțelor la test: A Condițiile de testare: utilizarea unui interval de timp fixat pentru testare, prezența unor factori de distragere a atenției, claritatea instrucției etc B Efectul interacțiunii personalității, sexului sau rasei examinatorului cu persoana examinată, aceasta stimulând sau inhibând performanța C Inconsecvența sau părtinirea în evaluarea performanțelor VI Variații neexplicate A Norocul în găsirea răspunsului corect, când subiectul îl ghicește B Distragerea momentană a atenției Teme de reflecție/autoevaluare: 1 Ce este fidelitatea și ce este validitatea unui test ? 2 Ce înseamnă varianța erorii și cui se datorează ea ? 1 3 Alte caracteristici psihometrice ale testelor Așa după cum am menționat deja, în literatura anglo-saxonă singurele caracteristici psihometrice menționate sunt fidelitatea și validitatea Unii autori, inclusiv autori români (de exemplu, U Schiopu, 1974) vorbesc și de o altă caracteristică psihometrică, respectiv, finețea discriminativă Aceasta s-ar referi, pe de o parte, la capacitatea testului de a 56 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN scoate în evidență diferențele interindividuale și, pe de altă parte, la capacitatea testului de a măsura exclusiv însușirea psihică pentru care a fost construit Alți autori vorbesc de existența unui număr mare de asemenea caracteristici psihometrice De exemplu, E Claparede ne oferă o adevărată listă care cuprinde (desigur, el s-a referit, mai ales, la calitățile ideale pentru unele teste de aptitudini): 1 să fie interesante; 2 să fie obiective în aplicație; 3 să aibă un instructaj clar; 4 să manifeste obiectivitate în apreciere (notare); 5 să excludă hazardul; 6 să fie gradabile; 7 să fie etalonate; 8 să prezinte o bună dispersie; 9 să fie univoce (adică să măsoare un singur aspect odată); 10 să fie reprezentative; 11 să fie inedite; 12 să nu facă apel la cunoștințe școlare; 13 să fie constante; 14 să se aplice la toate vârstele; 15 să permită să se alcătuiască forme echivalente; 16 să nu ceară pe cât posibil aparatură; 17 să nu măsoare decât o singură variabilă (cantitate, rapiditate sau calitate) Temă de reflecție/ autoevaluare: Citiți cu atenție cele 17 calități ale testelor și stabiliți dacă pot fi asimilate la cele două caracteristici psihometrice, respectiv, fidelitatea și validitatea întrebări de autoevaluare: 1 Ce sunt caracteristicile psihometrice ale testelor ? 2 Ce obligații au constructorii de teste în raport cu ele ? 3 Ce este fidelitatea testului ? 4 Ce este validitatea testului ? 5 Care sunt elementele de asemănare și de deosebire dintre fidelitate și validitate ? 6 Ce este scorul brut și ce este scorul real al subiectului ? 7 Ce este varianța erorii în măsurare? 8 Ce pericole prezintă varianța erorii ? 9 Ce trebuie făcut pentru reducerea varianței erorii ? 10 Enumerați cât mai mulți factori irelevanți ce pot interveni în acțiunea de testare 11 Ce trebuie făcut pentru ca să reducem cât mai mult din acțiunea acestor factori irelevanți ? 12 Ce putem spune despre controlul pe care trebuie să-l asigure cel ce aplică testul asupra factorilor irelevanți ? BIBLIOGRAFIE MINIMALĂ ALBU, MONICA, PITARIU, HORIA (1993), Proiectarea testelor de cunoștințe și examenul asistat de calculator Cluj-Napoca: Casa cărții de știință ANASTASI, ANNE (1996), Psychological Testing (7th edition) New-York: Mcmillan CLINCIU, ION, AUREL (2005), Psihodiagnostic Brașov: Editura Universității “Transilvania” STAN, AUREL (2002), Testul psihologic Evoluție, construcție, aplicație Iași: Polirom HORGHIDAN, VALENTINA (1998), Metode de psihodiagnostic București: Editura didactică și pedagogică 57 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare 2 Fidelitatea testului Cuprins: 2 1 Proceduri de calculare a fidelității testelor 2 2 Eroarea standard a măsurării Obiective: La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • cunoască tipurile de fidelitate • cunoască procedurile de calcul a fidelității • interpreteze exact ce înseamnă eroarea standard a măsurării • dea exemple din practică 2 1 Proceduri de calculare a fidelității testelor Mai întâi, să le enumerăm: a) fidelitatea test-retest; b) fidelitatea formă alternantă; c) fidelitatea half-split; d) fidelitatea Kuder-Richardson; e) fidelitatea coeficient alpha; f) fidelitatea privind personalitatea examinatorului Dar de ce sunt așa de multe ? În primul rand, din cauză că, așa cum am văzut la clasificarea testelor, acestea sunt foarte diferite (de exemplu, un test de inteligență diferă total de un chestionar de personalitate sau de un test proiectiv) Desigur, nu este exclusă situația în care pot fi utilizate mai multe proceduri pentru același test și atunci se pune problema calculării fidelității totale a) fidelitatea test-retest Din punct de vedere strict tehnic, această modalitate presupune aplicarea unui test, în momentul t1 pe un grup de subiecți și apoi, reaplicarea lui, pe același grup de subiecți, în momentul t2 În continuare se calculează valoarea lui rtt, adică a coeficientului de fidelitate, care arată la ce nivel corelează cele două serii de rezultate Distanța dintre cele două momente poate fi mai mică, de ordinul zilelor sau săptămânilor, sau poate fi mai mare, de ordinul lunilor sau chiar anilor În urma multor ani de cercetări s-a constatat că intervalele de timp mai scurte asigură o valoare mai mare a fidelității, în timp ce intervalele mari nu mai asigură aproape niciun fel de corespondență între cele două serii de rezultate Oricum, aplicarea testului în cele două momente înseamnă și aplicarea lui în condiții oarecum diferite Pot interveni anumiți factori irelevanți (vă mai amintiți de ei, desigur !!) care scapă de sub controlul experimentatorului, făcând să crească valoarea erorii în măsurare Acești factori pot ține de ambianța în care se face măsurarea (pot exista diferențe de temperatură, surse de distragere a atenției, diferențe privind spațiul etc ) sau de persoana subiecților (oboseală, experiențe 58 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN personale diferite, stări de dispoziție diferite etc) Deci, varianța erorii corespunde fluctuațiilor întâmplătoare ale performanței de la o testare la alta Când intervalul de timp este scurt sau foarte scurt (de ordinul zilelor, de exemplu) se poate întâmpla ca subiecții să fie puternic influențați de ceea ce înseamnă recunoașterea “principiului de construcție a testului” Să luăm, mai întâi, câteva cazuri simple, pentru a înțelege mai bine: Exemplul 1 Itemul testului apare în forma următoare: A R P - duc - un - L D ? Sarcina subiectului este de a spune ce literă trebuie pusă în locul semnului de întrebare Voi ce părere aveți ? Exemplul 2 Itemul testului apare în forma următoare: COCOLOȘ masă BALAMA cobai VIȘINE praline PEPENE oaie Sarcina subiectului este de a stabili cu care dintre cuvintele scrise cu litere mici se asociază cuvintele scrise cu litere mari Exemplul 3 Itemul testului apare în forma următoare: LONDRA este orașul în care se găssesc 6 teatre, 4 stadioane și 24 de cinematografe MOSCOVA este orașul în care se găsesc 3 stadioane, 21 de cinematografe și 7 teatre PARIS, capitala Franței, este orașul în care se găsesc 25 de cinematografe, 5 teatre și 5 stadioane Sarcina subiectului: câte teatre are orașul ROMA ? Vom comenta acest ultim exemplu, lăsându-vă bucuria de a descoperi singuri care este răspunsul la primele două cazuri Principiul de construcție al itemului constă în asocierea dintre numărul de litere ce-l regăsim în denumirea orașului și numărul de teatre LONDRA are 6 teatre, pentru că are șase litere, MOSCOVA are 7 teatre, pentru că are 7 litere și Paris are 5 teatre, pentru că are 5 litere Deci, ROMA are 4 teatre, deoarece are 4 litere Celelalte elemente din structura itemului (numărul de stadioane și de cinematografe) sunt introduce pentru a face sarcina puțin mai dificilă pentru subiect Acum ne dăm seama cât de mult ar fi ajutat subiectul, cunoscând principiul de construcție al testului, dacă el ar trebui să fie reexaminat cu același instrument la un interval de timp scurt 59 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Pe de altă parte, în cazul în care intervalul de timp este foarte mare, este greu de ignorat impactul pe care îl are asupra subiectului experiența lui personală (noi achiziții în plan informațional-cognitiv, în plan comportamental etc ) În practica psihodiagnostică s-au conturat deja un fel de reguli sau recomandări și anume: - în general, pentru orice tip de persoană intervalul dintre cele două momente de testare (test-retest) nu trebuie să depășească, decât foarte rar, 6 luni; - pentru copiii mici și foarte mici, datorită schimbărilor accentuate ca urmare a dezvoltării progresive, intervalul dintre cele două momente ale testării poate și trebuie să fie mai scurt decât în cazul adulților Deși această procedură de calculare a fidelității este foarte mult folosită, există, totuși, recomandarea ca să se apeleze la ea, mai ales în cazul testelor care nu pot fi afectate de repetiție În asemenea categorie ar intra unele teste de discriminare senzorială și unele teste psihomotorii (Anastasi, A , 1996) b) fidelitatea formă alternantă În mod practic se procedează în felul următor: se aplică pe un grup de subiecți un test și, apoi, după un anumit interval de timp, care poate fi mai scurt sau mai lung, se aplică, pe același grup, un alt test dar care este obligatoriu echivalent cu primul În final, se calculează valoarea coeficientului de fidelitate, respectiv, rtt În cazul în care forma alternantă a testului se aplică imediat după ce s-a aplicat prima variantă a lui, vorbim de fidelitate formă alternantă imediată iar, în cazul în care intervalul de timp este mai mare, vorbim de fidelitate formă alternantă întârziată În primul caz, sursa varianței erorii o constituie eșantionarea conținutului și, în al doilea caz, sursa varianței erorii o constituie eșantionarea conținutului dar și eșantionarea timpului În cadrul manualului testului trebuie să fie incluse, în mod obligatoriu, informații privind lungimea intervalului de timp dintre cele două momente de administrare și, în cazul în care acest interval este mai mare, informații privind tipurile de experiențe cu care s-au confruntat subiecții Dar cea mai importantă problemă pe care o ridică folosirea acestei proceduri se referă la modul în care se asigură ca cele două variante ale testului să fie identice, deci se pune problema asemănărilor și deosebirilor În practică este destul de dificil de realizat acest lucru, dar nu este imposibil, dovadă că există asemenea cazuri Principala deosebire constă în faptul că ele nu seamănă atunci când sunt puse în fața subiecților Sunt alte figuri, alte exerciții, alte întrebări etc Asemănările însă sunt mai multe și ele se referă la: -obiectivul urmărit în acțiunea de măsurare este același; - privitor la conținut, există un număr egal de itemi; - același tip de instructaj, același format al testului; - egalitate în ceea ce privește nivelul de dificultate al itemilor c) fidelitatea half-split, sau fidelitatea bazată pe divizarea testului în două jumătăți Din punct de vedere tehnic, testul este împărțit în două, cele două jumătăți devenind un fel de teste independente, se aplică pe un grup de subiecți și apoi se calculează valoarea coeficientului de fidelitate (rtt) Dar cum realizăm cele două jumătăți? Vom oferi două modalități: 1) împărțirea pur și simplu a testului în două părți, fiecare conținând un număr egal de itemi De exemplu, dacă testul întreg are 100 de itemi, cele două jumătăți vor avea câte 50 de itemi Se aplică testul pe grupul de subiecți și, apoi, se calcuează coeficientul de corelație (respectiv, coeficientul de fidelitate) dintre cele două serii de rezultate Sunt însă unele teste pentru care această modalitate nu poate fi aplicată Astfel, dacă testul este construit pe principiul introducerii itemilor de la ușor la greu, atunci prima jumătate va fi foarte ușoară și cealaltă jumătate va fi foarte grea Sau, dacă testul este foarte lung, are un 60 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN număr mare de itemi, la aplicarea celei de-a doua jumătăți va interveni în mod sigur oboseala; 2) o procedură mai adecvată presupune împărțirea testului în două jumătăți, plecând de la numărul de ordine al itemilor În prima jumătate sunt reținuți itemii cu soț (2,4,6,8 ș a m d ) și în a doua jumătate, itemii cu soț (1,3,5,7 ș a m d ) Astfel, sunt mai multe șanse ca cele două jumătăți să fie echivalente Desigur, o semenea procedură nu se poate aplica în cazul în care mai mulți itemi se referă la o aceeași problemă, cum ar fi cazul unei situații problematice Dar indiferent de ce procedură folosim, valoarea coeficientului de corelație vizează fidelitatea doar a unei jumătăți de test, or, pe noi ne interesează fidelitatea pentru întregul test O primă tentație ar fi aceea de a dubla, pur și simplu, valoarea coeficientului de fidelitate Dacă am proceda așa, am ajunge la rezultate stranii Gândiți-vă, de exemplu, dacă valoarea lui rtt pentru jumătate de test ar fi 0,65, dublând am ajunge la o valoare egală cu 1,30 Poate avea coeficientul de corelație o asemenea valoare ? V-am rugat să vă întoarceți la ce ați studiat la Statistică În realitate se aplică formula lui Spearman-Brown (Anastasi, A , 1988, 1996): 2rhh rtt = în care: rtt = coeficientul de fidelitate 1 + rhh rhh = corelația privind jumă- tatea de test Să luăm un exemplu: dacă rhh = 0,50, aplicăm formula și vom vedea care este valoarea coeficientului de fidelitate pentru întregul test: 2 x (0,50) 1 rtt = = - = 0,66 1 + (0,50) 1,5 Acum voi trebuie să faceți câteva exerciții și să vedeți ce se întâmplă cu valoarea coeficientului de fidelitate, când crește sau scade valoarea coeficientului de fidelitate pentru jumătate de test: 1 rhh = 0,30; rhh = 0,80; rhh = 0,99 Efectul pe care creșterea sau scăderea numărului de itemi ai testului îl are asupra valorii coeficientului de fidelitate poate fi calculat cu ajutorul altei formule Spearman-Brown: nrtt rnn = în care: rnn = coeficientul estimat 1 + (n-1) rtt rtt = coeficientul de corelație obținut n = numărul ce exprimă de câte ori crește sau descrește dimensiunea testului Să luăm un exemplu: dacă dorim ca numărul itemilor unui test, al cărui coeficient de fidelitate are valoarea 0,50, să crească de la 25 la 100, deci să crească de 4 ori, aplicăm formula: 4 x (0,50) 2 rnn = = - = 0,80 1 + (3 x 0,50) 2,5 61 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Deci, putem ușor constata că, în cazul în care mărim dimensiunile unui test, valoarea coeficientului de fidelitate crește Și, de aici, o concluzie foarte importantă pentru practică: cu cât numărul itemilor unui test este mai mare, cu atât nivelul de credibilitate acordat informațiilor obținute cu ajutorul lui va crește Am putea folosi o comparație: dacă am asemăna itemii cu ochii, cu cât sunt mai mulți ochi cu atât va fi “văzută” mai bine o anumită realitate Pentru a vedea dacă se confirmă ceea ce spunem, încercați să faceți și voi unele exerciții și anume: care este valoarea lui rnn dacă: 1 dorim să micșorăm dimensiunile unui test (rtt = 0,50) de 2 ori; 2 dorim să micșorăm dimensiunile unui test (rtt = 0,50) de 5 ori și de 10 ori Se poate pune problema și așa: cunoaștem valoarea actuală a coeficientului de fidelitate a unui test (care, normal, are un număr determinat de itemi) și dorim ca această valoare să fie îmbunătățită, adică să atingă o anumită valoare; avem nevoie să știm care va trebui să fie numărul itemilor pentru testul modificat În acest caz, aplicăm formula profeției Spearman-Brown: rttd (1 - rtto) N = în care: rtto = coef de fidelitate observat rtto (1 - rttd) rttd = coef de fidelitate dorit N = de câte ori va crește numărul itemilor Să luăm un exemplu: un test are 20 de itemi și rtto = 0,87; dacă dorim ca rttd să aibă valoarea 0,95, până la ce nivel trebuie să crească numărul itemilor ? Aplicăm formula: 0,95 (1 - 0,87) N = = 2,82 Apoi, 20 x 2,82 = 56,4, rotunjit, 56 0,87 (1 - 0,95) Deci, pentru ca valoarea coeficientului de fidelitate să atingă nivelul de 0,95, numărul itemilor testului trebuie să atingă nivelul de 56 Dar de ce este important ca valoarea fidelității testului să fie cât mai mare ? Desigur, cazul ideal este ca valoarea lui rtt să fie egală cu +1,00 În realitate nu găsim asemenea cazuri, valoarea lui rtt fiind mai aproape sau mai departe de această valoare ideală Testele existente în practică au valori diferite ale fidelității, ridicându-se problema selecției lor în funcție de ce obiective urmărim să atingem folosind rezultatele obținute În acest sens, unii autori fac următoarele recomandări (Kaplan, R , Saccuzzo, D , 1993): a) pentru cele mai multe din scopurile de cercetare, valoarea acceptată a fidelității testelor folosite este de minimum 0,70; b) când testul este folosit pentru a lua o decizie importantă în legătură cu o persoană, rtt trebuie să aibă o valoare mai mare de 0,95; c) în alte scopuri de testare, valoarea acceptată a fidelității este de minimum 0,90 d) fidelitatea Kuder-Richardson Această procedură este aplicabilă mai ales pentru testele ale căror itemi sunt prevăzuți cu un sistem de răspuns de tip “tot sau nimic” Este vorba de variantele disjunctive, de genul: “Da - Nu”, “Adevărat-Fals” etc Ceea ce este specific pentru această procedură este faptul că ea este bazată pe performanța la fiecare item Formula care se aplică este următoarea: n SDt2 - Epq rtt = x , în care 62 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN (n - 1) SDt2 rtt = coeficientul de fidelitate al întregului test n = numărul de itemi ai testului SDt = deviația standard a scorurilor totale ale testului Spq = suma produselor persoanelor care reușesc și a celor care nu reușesc la fiecare item Din punct de vedere practic, se aplică un test pe un grup de subiecți, apoi produsul pq se calculează pentru fiecare item și apoi toate produsele sunt adunate, rezultând Spq Se calculează SDt, se ridică la pătrat și se completează datele cerute de formulă Să luăm și noi un exemplu practic (Friedenberg, L , 1995): unui grup de studenți i s-a aplicat un test ce cuprinde 6 întrebări Răspunsul corect a fost marcat cu litera “D” iar răspunsul incorect, cu litera “N” În rubrica “scor total” regăsim numai numărul răspunsurilor corecte Întrebare 1 2 3 4 5 6 Scor total A D D D D N D 5 B D N N D N D 3 C D N N D N N 2 D N D N N N N 1 E N D N N D D 3 p = 0,6 0,6 0,2 0,6 0,2 0,6 q = 0,4 0,4 0,8 0,4 0,8 0,4 pq = 0,24 0,24 0,16 0,24 0,16 0,24 S (p)(q) = 1,28 ( X = 2,8; SD2 = 1,76; SD = 1,3266; n = 6; n = 5) Aplicând formula: 6 (1,76) - 1,28 0,48 KR-20 = ( -) = (1,2) = (1,2)(0,2727) = 0,33 5 (1,76) 1,76 e) coeficientul alpha În cazul altor teste, cum ar fi testele de personalitate, răspunsul nu mai poate fi disjunctiv, de tipul “Da” - “Nu”, ci subiectul trebuie să aleagă dintre mai multe răspunsuri De exemplu, la un item de genul “Obișnuiți să consumați băuturi alcoolice ?”, subiectul trebuie să aleagă din mai multe răspunsuri la alegere care sunt prezentate pe o scală cu 3 trepte, cu 5 trepte Astfel, la întrebarea de mai sus, scala cu 3 trepte ar fi așa : niciodată - uneori - mereu, iar scala cu 5 trepte ar arăta așa: niciodată - foarte rar - uneori - foarte des - întotdeauna Fiecare variantă primește un anumit punctaj; legat de exemplul de mai sus, dacă urmărim să vedem în ce măsură subiectul este dependent de alcool, varianta de răspuns “întotdeauna” va primi punctaj maxim, respectiv, 5 puncte și, apoi, în ordine descrescătoare: “foarte des” - 4 puncte; “uneori - 3 puncte; “foarte rar” - 2 puncte; “niciodată” - 1 punct 63 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Pentru această categorie de instrumente psihodiagnostice formula generalizată și propusă de Cronbach (1951), Kaiser și Michael (1975), Novik și Lewis (1967) ajută la calcularea coeficientului alpha, care este, după cum am mai spus, coeficient de fidelitate Formula care se poate folosi este următoarea: n E(SDi)2 rxx (sau a) = ( 1 - -) în care: n - 1 SDx2 SDx2 = suma varianțelor la scorurile întregului test (SDi)2 = suma varianțelor la scorurile fiecărui item al testului n = numărul de itemi ai testului Item 1 2 3 4 5 Scor total Sub 1 3 4 4 3 5 19 Sub 2 4 3 4 3 3 17 Sub 3 2 3 3 2 3 13 Sub 4 4 4 5 3 4 20 Sub 5 3 2 4 3 3 15 Sub 6 3 2 3 2 3 13 Deci, din punct de vedere practic, această procedură presupune găsirea varianței la scorurile subiecților pentru fiecare item, apoi se face suma, ajungându-se la S(SDi)2 Să luăm și noi un exemplu practic (Friedenberg, L , 1995): unui grup de 6 elevi i s-a aplicat un test, tip eseu, alcătuit din 5 întrebări La fiecare dintre întrebări scorul maxim era de 5 puncte SDi2 = 4722 6667 4722 2222 5833 ( X = 16 1667; SD2 = 7 4722; SD = 2 7335; n = 5; N = 6) Aplicăm formula de mai sus: 5 4722 + 6667 + 4722 + 2222 + 5833 A = ( 1 -) = 4 7 4722 2 4166 = (1 25) ( 1 ) = 1 25) (1 - 3234) = 84575 = 85 7 4722 f) fidelitatea legată de persoana celui care aplică testul Din punct de vedere practic, după ce se aplică un test, mai mulți examinatori sunt puși să coteze rezultatele Apoi se aplică procedurile uzuale de calculare a coeficientului de corelație și ceea ce rezultă este 64 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN valoarea fidelității examinatorului Desigur, este vorba, mai ales, de acele teste care intră în categoria testelor subiective (vă mai amintiți de clasificarea testelor în teste obiective și teste subiective ?) și, mai exact este vorba de testele proiective, la care diferențele dintre modul de cotare a acelorași rezultate de către mai mulți examinatori pot fi destul de mari Iar dacă, pentru un anumit test, se calculează valoarea acestui tip de coeficient de fidelitate, acest gen de informație trebuie să fie inclus în cadrul manualului testului După ce am trecut în revistă mai multe forme ale fidelității, să vedem, sintetic, care sunt sursele specifice ale varianței erorii pentru ele (Anastasi, A ,1988, 1996) Nr crt Tipul de coefficient de fidelitate Surse pentru varianța erorii 1 Fidelitate test-retest - eșantionarea timpului 2 Fidelitate formă alternantă (imediată) - eșantionarea conținutului 3 Fidelitate formă alternantă (la un interval de timp - eșantionarea timpului și a conținutului 4 Fidelitate half-split - eșantionarea conținutului 5 Kuder-Richardson și Coeficientul Alpha - eșantionarea conținutului și eterogenitatea conținutului 6 Fidelitate legată de examinatori - diferențele dintre examinatori Așa după cum am mai precizat, valoarea coeficientului de fidelitate arată care este procentul din varianța scorurilor la test ce depinde de varianța reală legată de trăsătura supusă măsurării De exemplu, dacă rtt are valoarea 0,75, asta înseamnă că 75% reprezintă varianța reală și 25%, varianța erorii Tema de reflecție/autoevaluare Vi s-au recomandat să faceți câteva exerciții Ce ați putut constata în urma efectuării lor ? 2 2 Eroarea standard a măsurării Este o altă formă de măsurare a fidelității, dar care este folosită pentru a interpreta scorurile individuale De aceea, mai este denumită și eroarea standard a scorului Ca formulă de calcul este folosită următoarea: SEM = SDt - rtt în care: SDt = deviația standard a scorurilor testului rtt = coeficientul de fidelitate De exemplu, dacă vom cunoaște valoarea deviației standard, precum și a coeficientului de fidelitate, putem calcula ușor valoarea lui SEM Astfel, dacă SDt = 10 și rtt = 0,80, valoarea lui SEM va fi 5 De regulă, constructorul de test se ocupă și de această problemă iar valoarea obținută a lui SEM este inclusă în cadrul manualului Pe noi ne interesează mai mult să vedem ce reprezintă această valoare și la ce ne folosește După cum am mai afirmat, scorul obținut de un subiect la un test (scor observat), cuprinde scorul real (raw score) și eroarea Un test este cu atât mai valoros cu cât eroarea este mai mică Datorită erorii, în cazul în care reaplicăm testul pe un subiect, scorul va varia, va fi mai mare sau mai mic și cât de mult poate varia ne spune valoarea lui SEM 65 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Să luăm un exemplu și mai concret din literatura de specialitate (Friedenberg, L , 1995), cu ajutorul căruia să ilustrăm și mai bine conceptual de SEM Un subiect este testat cu un test de inteligență de un număr mare de ori, prima dată el obținând un QI = 120 Testarea se va realiza, desigur, la anumite intervale de timp, ceea ce înseamnă că vor interveni, în mod sigur, o serie de factori irelevanți (vă mai amintiți de ei ?), cum ar fi: condiții de testare diferite, starea subiectului diferită, poate fi mai oboist, poate fi mai necăjit, fluctuații ale capacității de concentrare a atenției etc Deci, scorul poate fi mai mare sau mai mic și, în consecință, dacă am avea 100 de testări, ne vom aștepta ca jumătate dintre scoruri să fie mai mari și jumătate să fie mai mici Apelând la curba lui Gauss (dacă nu știți despre ce este vorba, revedeți de urgență ce ați învățat la statsitică !!!), vom fi puși în fața unei distribuții normale, având media = 120 SEM va reprezenta deviația standard a acestei distribuții așteptate În consecință: 34% din scorurile subiectului vor cădea între 120 și + 1 SEM (însemnând media și o deviație standard) și alte 34% din scoruri vor cădea între 120 și - 1 SEM (însemnând media și - o deviație standard) Luate împreună, 68% din scorurile subiectului vor cădea în intervalul definit de 120 ± 1 SEM Deci, noi putem fi siguri că, în caz de reaplicare a testului, 68% din scorurile subiectului vor cădea în acest interval, numit “interval de încredere de 68%” Pentru a obține un interval de încredere de 95%, trebuie să determinăm numărul de deviații standard ce cuprind 95% din scorurile subiectului Deci acest interval s-ar întinde între 120 și ± 2 SEM Deci, revenind la exemplul de mai sus, intervalul va fi între 120 + 10 și 120 - 10, respectiv, între 130 și 110 Mai departe, pentru a obține un interval de încredere de 99%, trebuie să determinăm numărul de deviații standard ce curpind 99% din scorurile subiectului Și acest interval s-ar întinde între 120 și ± 3 SEM, respectiv, în cazul concret, între 105 și 135 Deci formula pentru construirea intervalului de confidență este următoarea: X ± (scorul z) (SEM), în care: X + (scorul z) (SEM) = limita superioară a intervalului X - (scorul z) SEM = limita inferioară a intervalului Teme de reflecție/autoevaluare: 1 Care este utilitatea practică a cunoașterii valorii fidelității și valorii erorii standard a măsurării (SEM) ? 2 Dați 3 exemple concrete de utilizare a erorii standard a măsurării Întrebări de autoevaluare: 1 Care sunt procedurile de calculare a fidelității testelor ? 2 Care este specificul fidelității test-retest ? 3 Ce se întâmplă când intervalul dintre cele două testări este prea mic sau este prea mare ? 4 Care este specificul fidelității formă alternantă ? 5 Ce reguli trebuie respectate pentru a realiza teste echivalente ? 6 Care este specificul fidelității half-split ? Cum se procedează pentru a afla valoarea fidelității pentru întregul test ? 7 Care este specificul fidelității Kuder-Richardosn și Coeficientul Alpha ? Care este deosebirea dintre ele ? 8 Care este specificul fidelității legate de persoana examinatorului ? 9 Care sunt valorile fidelității recomandate pentru anumite scopuri ale testării ? 66 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 10 Care sunt sursele varianței erorii pentru dintre procedurile de calcul a fidelității 11 Ce reprezintă eroarea standard a măsurării (SEM) ? 12 La ce ne ajută cunoașterea valorii lui SEM ? 13 Dați exemple privind utilizarea valorii lui SEM BIBLIOGRAFIE MINIMALĂ 1 MINULESCU, M (2003), Teorie și practică în psihodiagnoză București: Editura Fundației România de mâine 2 STAN, A (2002), Testul psihologic Evoluție, construcție, aplicații Iași: Polirom 3 CLINCIU, AUREL, ION (2005), Psihodiagnostic Brașov: Editura Universității „Transilvania” 4 KAPLAN, M ROBERT (2005), Psychological Testing Principles, Applications, AndIssues Wadsworth: Thompson 5 FRIEDENBERG, L (1995), Psychological Testing Desigh, Analysis, and Use Allyn & Bacon 67 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare 3 Validitatea testului Cuprins 1 Validitatea de conținut 2 Validitatea de criteriu 3 Validitatea de construct Obiective: La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • cunoască noțiunea de validitate de conținut; • cunoască noțiunea de validitate de criteriu; • exemplifice cât mai multe categorii de criterii; • cunoască noțiunea de validitate de construct; • interpreteze valoarea coeficientului de validitate; • cunoască procedurile de calculare a validității 1 Validitatea de conținut Se referă mai ales la categoria testelor de achiziție Spunem că un test are validitate de conținut, dacă el măsoară ceea ce și-a propus să măsoare și dacă elementele sale de conținut (itemii) sunt expresia unui eșantion reprezentativ pentru un anumit univers de itemi sau univers de sarcini Să ne explicăm mai mult Să ne amintim de zilele cînd aveam de dat teză la o anumită disciplină Pentru aceasta trebuia să citim (si să retinem !!!) 50 de pagini Un elev s-a prezentat la teză cunoscând 45 de pagini iar altul doar 5 pagini, respectiv, cele pe care nu le citise primul La teză s-au dat subiecte din cele 5 pagini Primul elev nu a luat notă de trecere iar al doilea a luat o notă mare Dacă această modalitate o asemănăm cu un test de cunoștințe, este clar că el nu are validitate de conținut Subiectele au fost extrase la întâmplare iar norocul l-a favorizat pe al doilea elev Nota obținută de cei doi elevi nu reflectă nivelul de achiziționare real al celor doi elevi Dacă testul ar fi fost alcătuit ținându-se seama și de cerințele validității de conținut, el ar fi trebuit să cuprindă itemi referitor la întreaga materie iar răspunsul dat de cei doi elevi ar fi reflectat corect nivelul de achiziționare a cunoștințelor Iată, așadar, că este extrem de important ca, atunci când construim un test de cunoștințe, să-i asigurăm validitatea de conținut Aceasta înseamnă mai multe aspecte În primul rând, cei care fac o evaluare a programului educațional trebuie să fie experți în domeniu Numai aceștia au competența de a analiza și de a evalua elementele de conținut, formulând un anumit univers de itemi Aceștia vor fi diferiți în funcție de gradul de dificultate și, mai ales, în funcție de categoria de care aparțin Unii se pot referi la cunoștințe factuale, alții se pot referi ca cunoașterea unor principii, alții, la capacitatea de înțelegere și de interpretare, alții, la capacitatea de evaluare etc Deci, mai întotdeauna se pleacă de la obiectivele urmărite de către programul educațional Acestea pot fi de natură informațională (elevul va cunoaște, va ști ) și de natură operațională (elevul va avea capacitatea de a face ceva ) În structura testului vom găsi itemi care vor evalua achizițiile realizate pe cele două direcții 68 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN In concluzie, în baza informațiilor recoltate de către experți privitoare la conținutul programelor educaționale (cursuri, manuale, programe etc ) se conturează specificațiile testului, care trebuie să arate ariile de conținut sau subiectele ce trebuie să fie acoperite, obiectivele instrucționale (educaționale) sau procesele ce urmează a fi testate, precum și importanța relativă a subiectelor și proceselor individuale Pe această bază se stabilește numărul itemilor pentru fiecare tip de subiect, precum și punctele acordate pentru răspuns corect (Anastasi, A , 1988, 1996) Desigur, cei care construiesc noi teste de achiziție au obligația de a include, în cadrul manualului testului, informații privind procedurile utilizate, ariile de conținut, tipurile de achiziții (cunoștințe, deprinderi, capacități) acoperite de test, categoriile de itemi și numărul de itemi pentru fiecare Referitor la testele de achiziție am tot vorbit despre validitatea de conținut Asta nu înseamnă că și alte tipuri de validitate nu pot fi folosite și nu sunt relevante pentru aceste teste Pe de altă parte, nu trebuie să se înțeleagă faptul că validitatea de conținut este aplicabilă numai pentru testele de achiziție Astfel, în practica psihodiagnostică, acest tip de validitate este folosită în cazul testelor ocupaționale, care, la rândul lor, pot fi utilizate în activitatea de selecție profesională Și ar mai fi o problemă legată de validitatea de conținut În ce măsură avem garanția că experții (deci mai multe persoane) procedează identic în analiza și evaluarea elementelor de conținut ? De aceea, unii autori consideră că este necesar să analizăm calitatea judecății lor prin raportare la anumite repere (Stan, A , 2002) Sintetic se pot rezuma trei repere: 1 Coerența internă a judecăților stabilește persistența gradului de exigență a judecătorului de-a lungul efectuării actului apreciativ Un judecător nu poate emite aprecieri foarte exigente doar pentru o parte din itemi, ci pentru ansamblul sarcinilor din testul supus analizei; 2 Varianța judecăților: între judecățile emise de diferiți experți nu trebuie să existe o prea mare diferență; 3 Concordanța judecăților: între judecățile emise de diferiți experți nu trebuie să existe o prea mare diferență; 3 Concordanța judecăților se realizează în cazul în care acestea au tendința de a ordona itemii în aceeași manieră, după gradul lor de congruență cu fațetele supuse măsurării A Stan menționează că mai mulți autori au propus diferiți indicatori de măsurare a validității de conținut Astfel, Lawshe a propus următoarea formulă pentru calcularea unui coeficient de validitate de conținut, CVR (inițialele, în limba engleză, de la content validity ratio): N Ne - 2 CVR = formulă în care: N 2 Ne = numărul evaluatorilor (experților) care consideră testul, respectiv itemul, ca fiind reprezentativ; N = numărul total de evaluatori (experți) Temă de reflecție/autoevaluare: 1 În ce măsură rezultatele (performanțele) obținute la un test de cunoștințe sunt independente de influența variabilelor irelevante ? 2 Puteți să explicați de ce validitatea de conținut este nepotrivită pentru testele de personalitate și testele de aptitudini ? 69 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 2 Validitatea de criteriu Când am discutat despre funcțiile psihodiagnozei am arătat că una dintre cele mai importante este cea prognostică, adică în baza rezultatelor la test putem să facem predicții privind conduita pe care o va adopta subiectul într-o activitate sau situație viitoare Rezultatele obținute de către subiec la test poartă numele de predictori iar rezultatele (performanțele) obținute în cadrul activității (situației) în raport cu care s-au făcut predicțiile poartă numele de criteriu Deci, aici este vorba despre două mijloace de măsurare, respectiv, testul, în baza căruia facem predicțiile și criteriul, respectiv, mijlocul de măsurare directă și independentă a ceea ce a anticipat sau a prognosticat testul Deci testul poate să anticipe corect conduita subiectului sau, dimpotrivă, nu poate face acest lucru Puterea lui de anticipare sau de predicție depinde de validitatea sa de criteriu, exprimată de coeficientul de validitate (rxy) Cu cât valoarea acestuia este mai mare, cu atât devine mai sigură predicția privind comportamentul viitor al subiectului Desigur, un test poate fi validat printr-un singur criteriu sau prin mai multe criterii Legat de intervalul de timp dintre cele două momente de măsurare (test și criteriu), acesta poate fi mai mare sau, dimpotrivă, mai mic, uneori atât de mic încât măsurarea criteriului se poate face în același timp cu măsurarea făcută cu ajutorul testului În consecință, putem diferenția două forme de validitate, respectiv, validitate concurentă și validitate predictivă În cazul validității concurente, deși aplicăm un anumit test cu care măsurăm o anumită capacitate psihică (de exemplu, inteligența), rezultatele la criteriu le avem deja la îndemână, cum este cazul rezultatelor școlare În asemenea situații validitatea concurentă apare ca un substitut al validității predictive, ea vizând în special statutul existent al subiecților Având la îndemână informațiile privind rezultatele la test există pericolul influențării celor care sunt implicați în evaluarea legată de criteriu Acest fenomen este cunoscut sub numele de contaminare a criteriului De exmplu, un cadru didactic, dacă ar cunoaște rezultatele la teste ar manifesta tendința (este real acest pericol !!!) de a evalua la criteriu (cum este cazul unui test de cunoștințe) în funcție de aceste rezultate De aici se desprinde concluzia clară că este bine ca cei ce evaluează la criteriu să nu aibă acest la rezultatele la teste Printre cele mai cunoscute criterii ce sunt utilizate în practica psihodiagnostică sunt următoarele (Anastasi, A , 1988, 1996): 1) Achizițiile academice, evidențiate prin note, medii, evidențieri speciale, rezultate la concursuri, promovări, graduări, recompense, burse etc , sunt foarte frecvent folosite pentru validarea testelor de inteligență De aceea, mai mulți autori au considerat aceste teste ca fiind modalități de măsurare a aptitudinilor școlare De asemenea, achizițiile academice sunt folosite și pentru validarea testelor de măsurare a personalității și a testelor pentru măsurarea aptitudinilor multiple; 2) Performanța în cadrul unui domeniu de formare specializat este folosită în calitate de criteriu pentru validarea unor teste folosite pentru măsurarea aptitudinilor speciale Pot fi date ca exemple: - achizițiile finale în cadrul cursurilor de formare profesională specială sunt folosite pentru validarea testelor ce măsoară aptitudinile tehnice; - performanța în anumite ramuri artistice pot fi folosite în vederea validării testelor pentru măsurarea aptitudinilor artistice; 3) Performanța muncii (job performance) apare în calitate de criteriu folosit pentru validarea, în primul rând, a testelor pentru aptitudini speciale Totodată, ea este utilizată, dar 70 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN în mai mică măsură, pentru validarea testelor de inteligență generală și a testelor de personalitate; 4) Diagnoza psihiatrică este folosită în calitate de criteriu pentru evidențierea validității testelor de personalitate, dacă este bazată pe observarea prelungită și detaliată a cazului; 5) Corelațiile dintre un test nou și testele disponibile anterioare; de exemplu, validarea testelor de grup folosind bateria Stanford-Binet; 6) Metoda grupurilor contrastante, ce implică un criteriu compozit De exemplu, validitatea unor teste de aptitudini muzicale sau a unor teste de aptitudini tehnice pot fi verificate prin compararea scorurilor obținute de studenții admiși în instituțiile de artă sau de inginerie cu scorurile obținute de cei respinși la examenele de selecție Temă de reflecție/autoevaluare: Dacă notele școlare ridică multe probleme privind modul în care ele reflectă achizițiile reale ale elevilor, în ce măsură pot fi acceptate ca o formă de validare a unor teste de inteligență ? 3 Validitatea de construct (construct-related validation) Această formă de validitate vizează măsura în care un test are capacitatea de a măsura un anumit construct teoretic Fiecare test își propune să măsoare o anumită însușire sau trăsătură psihică, cum ar fi, de exemplu: aptitudine școlară, apreciere spațială, inteligență, comprehensiune verbală, fluență verbală, coordonare motorie, nevrozism, dominanță, anxietate, responsabilitate, intro-extroversie, timiditate etc Fiecare dintre acești termini reprezintă o abstracție și el reflectă o anumită parte a comportamentului uman Pentru a-l putea măsura este necesar să inventariem cât mai multe dintre actele comportamentale care sunt observabile și măsurabile De exemplu, ce înseamnă că un individ este introvertit ? Alcătuim o listă de acte comportamentale, ceea ce înseamnă că operaționalizăm conceptual de introversie, care va cuprinde: - nu-i place să vorbească prea mult cu alții; - nu are prieteni; - stabilește greu relații cu alte persoane; - nu răspunde dacă nu este întrebat; - nu-i place să atragă atenția altora asupra lui; - îi place să stea mai izolat; - îi place să-și analizeze propriile gânduri; nu dorește să meargă la petreceri etc Validarea de construct cuprinde mai multe etape, care sunt diferite de la un autor la altul, dar care în final atinge același obiectiv Astfel, Cronbach, 1979 (apud Stan, A , 2002) ia în considerare 3 etape: 1 Lansarea ipotezei în privința constructului care elucidează comportamentul la test Acesta este un act de reprezentare, care se bazează pe observarea comportamentului la test și pe cercetarea logică a testului; 2 Deducția ipotezelor verificabile din teoriile localizate în construct Aceasta este o operație pur logică; 3 Realizarea unei cercetări empirice pentru verificarea acestor ipoteze Alți autori, respectiv, Guthke, Bottcher și Sprung, 1991 (apud Stan, A , 2002) consideră că demersul pentru validare este constituit din patru trepte și anume: 1 Colectarea din fundamentele teoriilor asupra obiectului diagnosticului (de exemplu, anxietate, introversiune) a unei serii de aserțiuni, cum a r fi: a) despre relațiile presupus pozitive ale constructului implicat în test și alte constructe; b) despre neconcordanțele presupuse de relația dintre constructele cercetate și alte constructe; c) despre relația dintre constructele cercetate și anumite variabile observate (moduri de comportament, produse ale activității etc ); 71 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 2 Alegerea, mai ales pentru dezvoltarea unor teste, a acelora care apar adaptate pentru constructele indicate la “a” și “b”; 3 Formularea unei serii de ipoteze care se referă la măsurarea constructelor corespunzătoare (tipul “a” se referă la validitatea convergentă, tipul “b” la cea discriminantă, iar tipul “c” la validarea criteriului; 4 Verificarea sau falsificarea, respectiv modificarea ipotezelor anterioare, pe baza cercetării Printre modalitățile de evidențiere a validității constructului menționăm următoarele: 1 Diferențierea vârstei, criteriu folosit pentru validarea mai ales a testelor de inteligență De exemplu, în cazul bateriei Stanford-Binet, este folosită vârsta cronologică pentru a se evidenția dacă scorurile obținute arată o creștere progresivă odată cu creșterea învârstă a subiectului; 2 Corelațiile cu alte teste similare anterioare, care măsoară același tip de comportament Un test nou de inteligență nou este declarat valid dacă el corelează cu un alt test de inteligență a cărui validitate a fost deja verificată; 3 Analiza factorială, ce ne apare în calitate de tehnică statistică rafinată pentru analizarea interrelațiilor datelor comportamentale Scopul major al analizei factoriale este de a simplifica descrierea comportamentului supus măsurării, reducând numărul mare de variabile luate în atenție la câțiva factori sau trăsături comune 4 Analiza consistenței interne, folosită mai ales pentru categoria testelor de personalitate, în raport cu care criteriul nu este altceva decât scorul total al testului însuși 5 Matrice multi-trăsături - multi-metode (multi-trait - multimethod matrix) Această ultimă modalitate o vom detalia mai mult, pentru că ea este prezentată practic în toate tratatele de psihodiagnostic (Anastasi, A , 1988, 1996) și pentru că este una dintre cele mai utile Este vorba despre un proiect experimental propus de către Campbell și Fiske (1959) Ei diferențiază două tipuri de validitate, respectiv, validitatea convergentă și validitatea discriminatorie Validitatea convergentă se referă la faptul că un test corelează la nivel înalt cu alte variabile cu care teoretic trebuie să coreleze De exemplu, rezultatele unui elev la un test pentru măsurarea aptitudinilor matematice corelează cu rezultatele sale școlare la matematică (validitate convergentă) Pe de altă parte, este de așteptat ca performanțele la același test să nu coreleze cu rezultatele lui școlare la literatură (validitate discriminatorie) Revenind la proiectul experimental propus de Campbell și Fiske, menționăm că procedura folosită solicită măsurarea a două sau mai multe trăsături prin două sau mai multe metode Concret, în proiectul lor: - cele trei trăsături sunt trăsături de personalitate, respectiv: A (dominanța); B (sociabilitatea); C (motivația achiziționării); - cele trei metode sunt: 1) inventar de personalitate; 2) test proiectiv; 3) clasificarea în perechi Pot rezulta următoarele combinații posibile: Ai, A2, A3 = dominanța la testele 1, 2, 3; Bi, B2, B3 = sociabilitatea la testele 1, 2, 3; C1, C2, C3 = motivația achiziționării la testele 1, 2, 3 Se alcătuiește un table cu dublă intrare, în cadrul căruia regăsim următoarele tipuri de informații: - valoarea coeficienților de fidelitate; - valoarea coeficienților de validitate, rezultați în urma corelării scorurilor obținute pentru aceeași trăsătură prin diferite metode; - corelațiile dintre diferite trăsături măsurate cu aceeași metodă; 72 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN - corelațiile dintre diferite trăsături măsurate cu diferite metode În urma analizei datelor din table au rezultat următoarele concluzii: a) pentru ca validitatea constructului să fie satisfăcătoare, valoarea coeficienților de validitate trebuie să fie mai mare decât valoarea corelațiilor dintre trăsturile diferite măsurate cu metode diferite; b) valoarea coeficienților de validitate trebuie să fie mai mare decât valoarea corelațiilor dintre trăsături diferite măsurate cu aceeași metodă Și acum întrebarea: cât de mare poate fi valoarea coeficientului de validitate ? Nu există un răspuns acceptat unanim de către autori Desigur, ca o cerință generală, cu cât valoarea este mai mare cu atât mai valid este testul respectiv Să nu uităm însă, că absolut întotdeauna valoarea coeficientului de validitate al unui test este mai mică decât valoarea coeficientului de fidelitate al aceluiași test Unii autori (Anastasi, A , 1988, 1996) susțin că valoarea coeficientului validității trebuie să fie destul de mare pentru a fi statistic semnificativă la un nivel acceptabil, cum ar fi 0 01 sau 0 05 Alți autori, cum este cazul lui M Smith (apud Stan, A , 2002), propun o gradare a semnificațiilor unui indice de validitate: a) peste 0,50 - excelent; b) între 0,40 și 0,49 - bun; c) între 0,30 și 0,39 - acceptabil; d) sub 0,30 - slab A Stan atenționează însă că un coeficient de validitate mai mare de 0,70 este excepțional și că el merită o examinare atentă când este raportat Temă de reflecție/autoevaluare: 1 Încercați să operaționalizați constructele: timiditate și anxietate 2 De ce întotdeauna valoarea coeficientului de validitate al unui test este mai mică decât valoarea coeficientului de fidelitate ? Întrebări de autoevaluare: 1 De ce validitatea de conținut nu este valabilă pentru testele de personalitate și testele de aptitudini ? 2 În afară de testele de cunoștințe pentru ce categorii de teste mai este valabilă validitatea de conținut ? 3 Ce cuprind specificațiile testului ? 4 La ce ne ajută formula lui Lawshe ? 5 Care este specificul validității de criteriu ? 6 Care este deosebirea dintre predictori și criteriu ? 7 Prin ce se deosebește validitatea concurentă de validitatea predictivă ? 8 În ce constă fenomenul de contaminare a criteriului și cum poate fi el contracarat ? 9 Care sunt cele mai cunoscute criterii utilizate în practica psihodiagnostică ? 10 În ce constă validitatea privitoare la construct ? 11 Care este poziția diferiților autori privind etapele parcurse pentru evidențierea validității de construct 12 Care sunt principalele modalități de evidențiere a validității de construct ? 13 Prin ce se deosebește validitatea convergentă de validitatea discriminatorie ? 14 În ce constă și la ce folosește proiectul experimental propus de către Campbell și Fiske 15 Ce putem spune despre valoarea coeficientului de validitate ? 73 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 16 De ce întotdeauna valoarea coeficientului de validitate este mai mică decât valoarea coeficientului de fidelitate ? BIBLIOGRAFIE MINIMALĂ 1 ANASTASI, A (1988, 1996) Psychological testing New York: Macmillan 2 COHEN, R J , SWERDLIK, M E (2005) Psychological Testing andAssessment An Introduction to Tests and Assessment McGraw-Hill International Edition 2 CLINCIU, A I (2005) Psihodiagnostic Brașov: Editura Universității “Transilvania” 3 MINULESCU, M (2003) Teorie și practică în psihodiagnosză București: Editura Fundației România de Mâine 4 STAN, A (2002) Testul psihologic Evoluție, construcție, aplicație Iași: Polirom 74 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare 4 Testul psihologic și selecția profesională Cuprins: 1 Eroarea standard a estimării 2 Criterii de selectare a testelor 3 Locul și rolul testului în selecția profesională Obiective: La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • cunoască în ce constă eroarea standard a estimării; • poată să dea exemple operând cu SEE; • identifice criteriile în baza cărora selectăm testele pentru a le folosi în practică; • folosească tabelele Taylor-Russell; • determine capacitatea de selecție a unor teste Eroarea standard a estimării (StandardError of Estimation - SEE) Este foarte asemănătoare cu eroarea standard a măsurării (SEM), numai că aceasta nu mai are legătură cu fidelitatea, ci cu validitatea SEM ajută la determinarea mărimii erorii ce poate fi așteptată ca urmare a faptului că scorul unui subiect este rezultatul nonfidelității testului La rândul ei, SEE ajută la determinarea erorii ce poate fi așteptată privitor la scorul prognozat al subiectului la un criteriu, ca rezultat al validității imperfecte a testului Așa după cum deja cunoaștem, în baza rezultatelor obținute la un test folosit pentru selectarea subiecților, anticipăm poziția sau chiar scorul unui subiect la criteriu În cazul în care testul ar fi perfect valid, de câte ori am aplica testul am anticipa exact același scor la criteriu, ceea ce în realitate este imposibil Datorită valorii relativ reduse a validității testului (vă amintiți că valoarea coeficientului de validitate este întotdeauna mai mică decât valoarea coeficientului de fidelitate ?), poziția anticipată a subiectului la criteriu va oscila între anumite limite, care pot fi precizate cu ajutorul lui SEE Formula de calcul este următoarea: SEE = SDy V 1 - rxy2 în care: SDy = deviația standard la scorurile la criteriu; rxy2 = pătratul coeficientului de validitate Să vedem ce se întâmplă în cazul în care valoarea coeficientului de validitate = 1 00, adică testul ar fi perfect valid Înlocuim în formulă și vom constata că valoarea lui SEE ar fi zero, deci precizia anticipării scorului subiectului la criteriu ar fi maximă În cazul în care, însă, coeficientul de validitate ar avea valoarea zero, înlocuind în formulă, vom constata că mărimea erorii standard a estimării ar fi atât cât este deviația standard Deci, predicția nu ar mai avea nicio precizie, ea fiind total întâmplătoare Inutil să mai spunem că valoarea predictivă a testului ar fi practic nulă Desigur, calcularea valorii lui SEE intră în obligația constructorului testului iar informațiile privind acest tip de eroare trebuie să fie incluse în manualul testului 75 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Cunosc\nd valoarea lui SEE noi putem să anticipăm între ce limite se va încadra scorul subiectului prognozat la criteriu Să presupunem că scorul prognozat este 100 Dacă reaplicăm testul de 100 de ori, scorul prognozat va oscila în jurul scorului egal cu 100, respectiv, jumătate dintre ele vor fi mai mari și jumătate vor fi mai mici Apelând la curba lui Gauss, vom fi puși în fața unei distribuții normale, având media = 100 SEE va reprezenta deviația standard a acestei distribuții Drept urmare: 34% din scorurile subiectului vor cădea între 100 și + 1 SEE (însemnând media și plus o deviație standard) și alte 34% din scoruri vor cădea între 100 și - 1 SEE (însemnând media și minus o deviație standard) Luate împreună, 68% din scorurile subiectului vor cădea în intervalul definit de 100 ± 1 SEE Deci, dacă valoarea lui SEE ar fi 10, noi putem fi siguri că, în caz de reaplicare a testului în vederea anticipării scorului la criteriu, acesta din urmă va cădea în intervalul 90 și 110, la un nivel de încredere de 68% La un nivel de încredere de 95%, scorul prognozat ar cădea în intervalul 100 ± 2 SEE, respectiv, pentru exemplul dat, în intervalul 80 și 120 La un nivel de încredere de 99%, scorul prognozat ar cădea în intervalul 100 ± 3 SEE, respectiv, pentru exemplul nostru, în intervalul 70 și 130 Exact ca și în cazul erorii standard a măsurării, formula pentru construirea intervalului de încredere este următoarea: X ± (scorul z) (SEE), în care: X + (scorul z) (SEE) = limita superioară a intervalului X - (scorul z) (SEE) = limita inferioară a intervalului Așa după cum am precizat de mai multe ori, valoarea coeficientului de validitate al testelor este relativ mică, ceea ce înseamnă că, de regulă, eroarea scorurilor prognozate este considerabilă De aceea, în realitate, cele mai multe teste sunt folosite nu pentru a prevedea exact scorul unui subiect la criteriu, ci mai mult pentru a determina dacă el va depăși un standard minim al performanței sau o linie de demarcație între succes-eșec (Anastasi, A , 1988, 1996) Temă de reflecție/autoevaluare: 1 Ce este eroarea standard a estimării (SEE)și care este relația sa cu validitatea testului ? 2 Dacă valoarea lui SEE este 5 și scorul prognozat al subiectului în baza rezultatelor la un test aplicat este 120, între ce limite se va întinde scorul prognozat, la un nivel de încredere de 99%, în caz de reaplicare a testului ? 3 Criterii de selectare a testelor În practica psihgodiagnostică există foarte multe teste, de aceea, se pune problema selectării lor, atât în funcție de caracteristicile psihometrice, cât și în funcție de scopul acțiunii de măsurare Desigur, trebuie evitată pe cât posibil utilizarea unui singur test, mai ales atunci când trebuie luată o decizie importantă pentru subiect Unele teste sunt deja foarte cunoscute, ele fiind aplicate de foarte mulți psihologi În unele țări, cum este cazul S U A s-au realizat chiar ierarhizări ale testelor în funcție de preferința manifestată de practicieni Teste precum MMPI, CPI, WAIS, WISC, WPPSI, Rorschach, TAT etc s-au impus mai demult în partea de început a acestor ierarhizări Cu toate acestea, selectarea testelor pe care trebuie să le aplice psihologul nu este o sarcină ușoară, el trebuind să dovedească multă flexibilitate și multă răspundere în acest sens 76 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Printre factorii care trebuie să fie luați în considerație în selectarea testelor pot fi incluși următorii: - motivul pentru care subiectul a fost trimis la psiholog pentru măsurarea și evaluarea psihologică; - vârsta subiectului; - probleme prezentate de subiect de ordin snzorial (văz, auz) sau de ordin motor; - perioada de timp disponibilă pentru testare; - disponibilitatea anumitor teste; - abilitatea subiectului de a citi (pentru cazurile în care vom folosi teste de personalitate sau anumite inventare de interese vocaționale); - mediul socio-cultural din care provine subiectul În continuare vom prezenta câteva exemple (Bishop, E , 1992) de modul în care se pot combina testele, ținându-se seamă de scopul trimiterii spre examinare și de vârsta subiecților Exemplul 1: pentru un adult care este trimis pentru o examinare psihologică completă în vederea stabilirii exacte a diagnosticului și planificării tratamentului, fiind suspectat că are probleme psihiatrice, cum ar fi, depresia sau anxietatea se poate folosi următoarea baterie de teste Testele sunt prezentate în ordinea aplicării lor: - Scala de inteligență pentru adulți a lui Wechsler (WAIS - III); - Inventarul multifazic de personalitate Minnesota (MMPI - 2); - Testul Bender Gestalt; - Testul tematic de apercepție (TAT); - Testul completării de fraze (Incomplete Sentence Blank) Acest grup de teste, atât obiective, cât și proiective vor oferi informații privind abilitățile cognitive și funcționarea personalității Exemplul 2: pentru copiii ce urmează a fi evaluați pentru plasarea lor într-o instituție pentru educație specială, se poate folosi următoarea baterie de teste: - Scala de inteligență a lui Wechsler pentru copii (WISC-III); - Testul pentru achiziții școlare Woodcock-Johnson (Woodcock-Johnson Achievement Test - Revised); - Testul Bender-Gestalt; - Testul de dezvoltare a integrării vizual-motorii (The Developmental Test of Visual-Motor Integration); - The Draw a Person (DAP) sau House-Tree-Person (HTP) Deci această baterie vizează mai multe aspecte, respectiv, nivelul de dezvoltare intelectuală, nivelul și tipurile de achiziții școlare, nivelul de funcționare cognitivă, nivelul de funcționare a personalității Dacă este necesară confirmarea unui diagnostic posibil privind retardarea mentală, trebuie să fie adăugate alte instrumente de măsurare a comportamentului adaptativ, cum este cazul Scalelor Vineland pentru Comportamentul Adaptativ (Vineland Adaptative Behavior Scales) Aceste scale sunt foarte necesare deoarece diagnoza retardării mentale presupune evidențierea unor întârzieri semnificative atât în ceea ce privește funcționarea cognitivă, cât și în ceea ce privește comportamentul adaptativ Exemplul 3 Dacă un adolescent este evaluat pentru posibile servicii de reabilitare vocațională, bateria folosită ar trebui să cuprindă: teste pentru abilități cognitive, teste de 77 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN achiziții școlare, teste pentru planificare și organizare, teste pentru interese vocaționale și teste de personalitate Concret, această baterie ar cuprinde: - Scala de inteligență a lui Wechsler pentru adulți (WAIS-III); - Wide Range Achievement Test- Revised; - Strong Vocational Interst Blank; - Incomplete Sentences Blank Exemplul 4 Pentru evaluarea unui copil mic și foarte mic, în vederea beneficierii de un suport financiar datorită unor dizabilități, se poate utiliza o baterie care să cuprindă: - Testele Bayley ale dezvoltării copilului (Bayley Tests of Infant Development; - Scalele Vineland pentru comportamentul adaptativ (The Vineland Adaptive behavior Scales; - Observarea interacțiunii mamă-copil O grijă deosebită trebuie acordată selectării testelor potrivite pentru evaluările judiciare (forensic evaluations) Exemplul 5 În cazul stabilirii custodiei pentru un copil, testele de evaluare sunt aplicate și pe copii și pe părinți, la care se adaugă interviul clinic și observarea interacțiunii părinte-copil Ca teste pentru copii pot fi folosite următoarele: - Testul Aperceptiv Robert pentru Copii (Roberts Apperception for Children); - Testul vocabular în imagini Peabody (Peabody Picture Vocabulary Test- Revised); - Desenul kinetic al familiei (Kinetic Family Drawing); - Completare de propoziții (Incomplete Sentences Blank) Pentru adulți se aplică testele: - Inventarul multifazic de personalitate Minnesota (MMPI-2); - Completare de propoziții (Incomplete Sentences Blank); - Indexul stresului parental (Parenting Stress Index) Teme de reflecție/autoevaluare: 1 De ce credeți că este necesar, precum în exemplele de mai sus, să fie incluse într-o baterie de testare mai multe teste ? 2 Care sunt cele mai importante criterii ce se iau în atenție în selectarea unor teste folosite în acțiunile de măsurare psihologică ? 3 Locul și rolul testului în selecția profesională Testul este foarte frecvent folosit în acțiunile de selecție profesională În urma aplicării lui rezultă două categorii de subiecți: a) cei care reușesc la test; b) cei care nu reușesc la test Primii mai sunt denumiți subiecți admiși iar ceilalți sunt denumiți subiecți respinși Cei care organizează examenul de selecție trebuie să stabilească linia de demarcație (cut-off score) dintre subiecții admiși și cei respinși Această linie poate fi foarte apropiată de partea de început a listei candidaților (de exemplu, dacă se pot obține maximum de 100 de puncte la test, vor fi declarați reușiți numai cei ce obțin peste 95 de puncte) sau, dimpotrivă, poate fi foarte mult îndepărtată de partea de început (în cadrul exemplului dat pot fi declarați admiși cei ce obțin cel puțin 25 de puncte) Este clar că, în primul caz, interesul organizatorului examenului este de a face o selecție foarte severă, iar în al doilea caz, interesul este de a accepta cât mai mulți candidați Dacă testul psihologic folosit pentru selecție ar fi un instrument perfect (coeficientul de fidelitate = 1,00 și coeficientul de validitate = 1,00) atunci, în cadrul acțiunii de selecție, ar fi sigur departajați subiecții buni (admiși) de cei slabi (respinși) Deci nu ar exista nicio greșeală, în sensul că pot fi admiși candidați slabi și respinși candidați buni 78 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Cum însă, în realitate, testul psihologic nu este un instrument de măsurare perfect (niciodată valoarea coeficientului de fidelitate și a coeficientului de validitate nu este 1,00), el poate „greși”, în sensul că, pe lângă subiecții admiși pe „drept” pot fi incluși și subiecți care ar trebui să fie respinși De asemenea, în categoria subiecților respinși pe „drept”, el poate include și unii subiecți, care ar trebui să fie, de fapt, admiși Iată, aș adar, că, în realitate, în urma examenului de selecție rezultă nu doar două categorii, ci patru: admiși, respinși, fals admiși, fals respinși Desigur, ultimile două categorii ridică probleme serioase în cazul în care procentul celor ce le aparțin este mare Falșii admiși sunt cei care nu au capacități și aptitudini pentru activitatea în raport cu care sa făcut selecția și menținerea lor în acțiunile de formare (training) vor necesita costuri mari inutile, deoarece ei oricum vor eșua când vor fi evaluați la criteriu Falșii respinși înseamnă, candidați buni „pierduți”, care, dacă ar fi fost admiși, ar fi reușit sigur când ar fi fost evaluați la criteriu Cum ar trebui să procedeze organizatorul examenului pentru a reduce numarul falșilor pozitivi (cei admiși pe nedrept) ? O măsură simplă ar fi să ridice linia de demarcație, scorul de departajare (cut-off score) cât mai aproape de partea de început a listei candidadaților Cei care obțin scoruri foarte mari este greu de presupus că ei vor aparține grupului falșilor pozitivi Și invers, dacă organizatorul examenului de selecție nu dorește să-i piardă pe cei care au capacitățile și aptitudinile măsurate de test (să nu-i piardă pe falșii negativi), poate coborî linia de demercație (cut-off score) cât mai jos posibil Iată, așadar, că se pune problema în ce măsură testul psihologic folosit în selecția candidaților are capacitatea de a face o predicție corectă Mai întâi, vorbim despre rata de selecție a cestuia (hit rate), ce se referă la proporția cazurilor în care el anticipă corect succesul sau eșecul Pe de altă parte, având în vedere rezultatele la criteriu, se poate determina rata de bază (base rate) care este proporția celor care reușesc și a celor care nu reușesc la criteriu Să luăm și noi un exemplu concret (Kaplan, M R , Saccuzzo, P Dennis, 1993) Este vorba despre un test cu 83% precizie predictivă și 80% precizie a detectării Rezultate la testul psihologic Afecțiune neurologică Normal Total Afecțiune neurologică Actual Normal Total A 8 B 2 10 C 15 D 75 90 23 77 100 Citind datele din tabel, rezultă că, în urma testării psihologice a 100 de subiecți, a rezultat că 23 au afecțiune neurologică și că 77 dintre ei nu au o asemenea afecțiune Pe de altă parte, tot din tabel reiese că, în urma efectării diagnosticului medical, a reieșit că 10 subiecți au afecțiune neurologică iar ceilalți 90 sunt normali Ce rezultă de aici ? În tabel există două tipuri de preziceri corecte: a) din 10 subiecți cu afecțiune neurologică, testul detectează 8, ceea ce înseamnă că rata de detecție este de 80%; b) testul arată că 75 dintre subiecți sunt normali, fiind în total acord cu rezultatul examenului medical Deci, din 100 de subiecți, testul stabilește corect „diagnosticul” pentru 83 dintre ei Putem spune, în consecință, că acest instrument psihodiagnostic prezintă un procent de 83% 79 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN a acurateței sau preciziei predictive Totodată, însă, există și două tipuri de eșecuri în predicție Astfel, există două cazuri considerate, în baza testului, ca neavând afecțiune neurologică, în realitate nefiind așa De asemenea, conform datelor obținute la test, 15 cazuri prezintă o afecțiune neurologică, situație neconfirmată de examenul medical Așadar, din tabelul de mai sus reies următoarele tipuri de informații: - A și D = predicție corectă a testului - B = fals negativi - C = fals pozitivi - A/(A + B) = rata de detecție - D/(c + d) = specificitate - (A + D)/(A + B + C + D) = rata acurateței sau preciziei predictive Concluzia principală este aceea că acest test este relativ bun în detectarea afecțiunilor neurologice, deoarece 10% din toți subiecții au asemenea afecțiuni iar testul detectează 80% din cazuri Pentru a cunoaște cât de mult ne poate ajuta un test psihologic în acțiunile de selecție, Taylor și Russell au oferit o metodă pentru evaluarea validității în relație cu cantitatea de informație cu care testul contribuie dincolo de rata de bază Această metodă a măsurării valorii testelor este prezentată într-o serie de tabele, cunoscute sub numele de tabele Taylor-Russell (Kaplan, M R , Saccuzzo, P D , 1993) Cel care dorește să utilizeze aceste tabele trebuie să dispună de următoarele informații: 1 Definirea succesului și precizarea cât mai clară a limtei de demarcație între cele două categorii de subiecți (admiși-respinși); 2 Determinarea ratei de bază, adică procentul persoanelor care vor reuși în condițiile în care nu se folosește niciun test; 3 Definirea ratei de selecție: procentul candidaților selectați sau admiși; 4 Determinarea coeficientului de validitate Acesta, de regulă, vizează corelația dintre rezultatele la test și rezultatele la criteriu Tabelele Taylor-Russell oferă probabilitatea ca o persoană selectată pe baza scorului la test să reușească la criteriu Există câte un tabel diferit pentru fiecare rată de bază Tabelul care este cel mai cunoscut și care poate fi regăsit apropate în toate tratatele de psihodiagnostic este cel cu o rată de bază: 0,60 Pentru a utiliza tabelul se ia în atenție șirul ce cuprinde valorile validității testului ce urmează a fi utilizat pentru selecție Apoi se găsește coloana asociată procentului celor ce vor fi selectați Numărul găsit la intersectarea șirului și coloanei ne oferă o estimare a celor ce vor reuși în cazul în care vor fi selectați pe bază de test Iată un exemplu concret (Kaplan, M R , Saccuzzo, P D , 1993) Să presupunem că avem în calitate de criteriu notele (mediile) obținute de elevi după terminarea unui an școlar Având în vedere că limita de demarcație (cutt-off score) este 5,00, 60% dintre ei sunt declarați reușiți Deci rata de bază = 60% Apoi, considerăm că vom utiliza pentru selecția elevilor un test de inteligență Rata de selecție va fi 60%, deoarece avem numai atâtea locuri Valoarea coeficientului de corelație dintre acest test și criteriu este deja cunoscută: 0,30 Pentru a estima câți candidați vor reuși dacă ei sunt selectați în baza testului de inteligență folosim tabelul Taylor-Russell Vom găsi procentul de 66 sau 66% Deci, diferența este doar de 6% față de selecția bazată pe întâmplare Dacă valoarea coeficientului de validitate ar fi fost 0,50, atunci procentul ar fi fost de 73%, ceea ce înseamnă o diferență de 13% față de selecția bazată pe întâmplare 80 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Tabelul Taylor-Russell pentru rata de bază = 60% Rata de selecție Validitatea 0 5 0,10 0 20 0 30 0 40 0 50 0 60 0 70 0 80 0 90 0 95 00 60 60 60 60 60 60 60 60 60 60 60 05 64 63 63 62 62 62 61 61 61 60 60 10 68 67 65 64 64 63 63 62 61 61 60 15 71 70 68 67 66 65 64 63 62 61 61 20 75 73 71 69 67 66 65 64 63 62 61 25 78 76 73 71 69 68 66 65 63 62 61 30 82 79 76 73 71 69 68 66 64 62 61 35 85 82 78 75 73 71 69 67 65 63 62 40 88 85 81 78 75 73 70 68 66 63 62 45 90 87 83 80 77 74 72 69 66 64 62 50 93 90 86 82 79 76 73 70 67 64 62 55 95 92 88 84 81 78 75 71 68 64 62 60 96 94 90 87 83 80 76 73 69 65 63 65 98 96 92 89 85 82 78 74 70 65 63 70 99 97 94 91 87 84 80 75 71 66 63 75 99 99 96 93 90 86 81 77 71 66 63 80 1 00 99 98 95 92 88 83 78 72 66 63 85 1 00 1 00 99 97 95 91 86 80 73 66 63 90 1 00 1 00 1 00 99 97 94 88 82 74 67 63 95 1 00 1 00 1 00 1 00 99 97 92 84 75 67 63 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 86 75 67 63 După cum am afirmat mai înainte, în urma examenului de selecție, este posibil ca unii candidați, deși valoroși, să nu fie selectați De aceea, se ridică problema existenței unei modalități de estimare a proporției candidaților declarați admiși care vor confirma la criteriu și procentul celor care ar fi reușit la criteriu dacă ar fi fost selectatți De exemplu (Kaplan, M R , Saccuzzo, P D ), să presupunem că un șef de personal la o companie dorește să selecteze 30 de subiecți dintr-un număr de 100 de candidați Se va folosi un test cu validitatea = 70 Rata de bază este 60% Utilizând tabelul Taylor-Russell pentru o rată de bază de 60%, vom găsi procentul de 91, ceea ce înseamnă că 91% din candidații selectați vor reuși la criteriu (91% x 30 = 27,3, deci, 27 Apoi, făcând diferența (30 - 27 = 3) rezultă că 3 candidați nu vor reuși la criteriu Dacă șeful de personal s-a hotărât să angajeze 30 de candidați din 100 prezentatți la concurs, înseamnă că nu va angaja 70 dintre ei Asta nu înseamnă, însă, că toți cei respinși, adică toți cei 70 de candidați, dacă ar fi fost angajați, ar fi eșuat la criteriu Situația este reflectată de tabelul de mai jos Test Admiși Respinși Total 81 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Succes 27 33 60 Criteriu Eșec 3 37 40 Total 30 70 100 Ce se poate observa din acest tabel ? Din cei 60 de candidați care ar reuși la criteriu sunt selectați, cu ajutorul testului, doar 27, ceea ce înseamnă că 33 de candidați, care ar reuși la criteriu, nu sunt selectați Totuși, din cei 40 de candidați, care ar eșua la criteriu, 37 au fost bine diagnosticați În concluzie, 90% (27/30) dintre candidații selectați cu ajutorul testului vor reuși la criteriu iar 47% (33/70) dintre cei respinși ar fi reușit la criteriu Procedura poate fi declarată a fi bună, deoarece procentul celor ce vor reuși dintre cei selectați este mult mai mare Teme de reflecție/autoevaluare: 1 Analizând tabelul Taylor-Russell, ce putem spune despre testele ce au validitatea mai mare iar rata de selecție este mai mică ? Dar despre testele care au validitatea mai mică iar rata de selecție este mai mare ? 2 Intrebări de autoevaluare: 1 Ce reprezintă eroarea standard a estimării (SEE) ? 2 Care este formula de calcul a erorii standard a estimării ? 3 Ce asemănări și ce deosebiri sunt între eroarea standard a măsurării (SEM) și eroarea standard a estimării (SEE) ? 4 Cine se ocupă de calcularea celor două forme de erori ? 5 Dați cel puțin 2 exemple concrete privind utilizarea valorii lui SEE 6 Care sunt cele mai importante criterii folosite în selectarea testelor ? 7 Dați câteva exemple de modul în care se pot combina testele într-o baterie de teste 8 De ce trebuie să includem mai multe teste în acțiunile de măsurare și evaluare psihologică ? 9 Când folosim teste psihologice pentru selecția de personal, câte categorii reale de candidați avem ? 10 Ce înseamnă rata de detecție a testelor ? 11 Ce înseamnă rata acurateței sau a preciziei predictive a testelor ? 12 Care sunt pașii parcurși când folosim tabelele Taylor-Russell ? BIBLIOGRAFIE 1 BISHOP, E (1992) Selection of psychological tests for differentpurposes: children, adolescents, and adults 50th International Convention of ICP, Olanda 2 COHEN, J R , SEWRDLIK; E:M: (2005) Psychological Testing andAssessment An Introduction to Tests andMeasurement McGraw-Hill International Edition 3 CLINCIU, A (2005) Psihodiagnostic Brașov: Ed Universității “Transilvania” 4 KAPLAN, M R , SACCUZZO, P D (1993) Psychological Testing Brooks/Cole Publishing Company 5 STAN, A (2003) Testul psihologic Evoluție, construcție, aplicații Iași: Polirom 82 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN MODULUL IV ANALIZA ITEMULUI Unitatea de învățare 1: Ce este analiza itemului Cuprins: 1 Relația itemului cu testul 2 Tipuri de analiză a itemului Obiective La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • definească itemul ca element component al testului; • cunoască relația dintre itemi și testul luat ca întreg; • cunoască funcțiile îndeplinite de item în cadrul testului; • evalueze diferite tipuri de analize a itemului 1 Relația itemului cu testul Am vorbit destul de mult despre caracteristicile psihometrice ale testelor, respectiv, despre fidelitate și validitate Acum vom vedea în ce măsură acestea depind de caracteristicile elementelor componente ale testelor, mai exact ale itemilor Testul cuprinde un anumit număr de itemi și urmărește să măsoare o anumită însușire sau o anumită caracteristică psihică Obiectivul va fi atins, însă, dacă fiecare dintre itemi va urmări și va avea „puterea” să măsoare aceeași însușire sau caracteristică psihică Sunt și autori care nu folosesc noțiunea de item (apud Stan, A , 2002) De exemplu, David Magnusson, 1975, folosește noțiunile de sarcini și analiză de sarcini în loc de itemi și analiză de itemi Gustav Lienert (1967) folosește, în cadrul tratatului său o singură dată noțiunea de item Să presupunem că, în cadrul unui test care conține 25 de itemi, la 5 dintre ei nu răspunde corect niciun subiect iar la alți 5 dintre ei, răspund corect toți subiecții Este clar că cei 10 itemi, deși sunt incluși în structura testului, sunt inutili, în sensul că ei nu contribuie cu nimic la scoaterea în evidență a diferențelor interindividuale Și dacă acești itemi sunt „neputincioși”, atunci lungimea testului (numărul real de itemi) este, în realitate, mai mică cu 10 itemi Și dacă reducem lungimea testului (vă mai aduceți aminte ce se întâmplă ?) va scădea automat valoarea fidelității, cât și a validității În cazul exemplului nostru este bine ca itemii foarte dificili și cei foarte ușori să fie eliminați din structura testului Dar ce este, de fapt, un item ? Cum îl putem defini ? În ce relație se află el cu testul luat ca întreg ? Vom oferi răspunsul la aceste întrebări, începând cu o definiție Și am preferat definiția dată de M Reuchlin, în lucrarea Grand dictionnaire de la psychologie (1992): 83 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN „itemul este un element al unui test, constituind o situație particulară șijucând rolul unui stimul la care subiectul nu poate da decât un răspuns dintre două sau mai multe răspunsuri teoretice prevăzute de test” Ce reiese din această definiție ? În primul rând, faptul că itemul este o secvență, o componentă a testului, un fel de „mintest” care are o anumită individualitate În al doilea rând, faptul că itemul apare ca un stimul pentru subiect În sfârșit, în al treilea rând, faptul că subiectul oferă un răspuns, care poate fi corect sau nu Desigur, legat de formele de răspuns, lucrurile se prezintă diferențiat în funcție de categoria testelor De exemplu, la testele de performanță, răspunsul la item poate fi corect (subiectului i se acordă 1 punct) sau incorect (subiectului nu i se acordă niciun punct sau subiectului i se acordă 0 puncte) În cazul testelor de personalitate, dacă se folosesc scale cu mai multe variante de răspuns, subiectul poate obține un număr variabil de puncte, adică obține atâtea puncte câte sunt acordate treptei de răspuns pe care a ales-o subiectul Pentru a fi considerată item o componentă a testului trebuie să aibă individualitate informațională pertinentă, adică să contribuie distinct, clar și conturat, la scorul total al testului (Stan, A , 2002) Un exemplu oferit de autor, care nu constituie item, este bararea unei litere, O sau C, la testul de atenție Bourdon-Amfimov S-a pus și întrebarea: câți itemi trebuie să aibă un test ? Privind spre practică, putem întâlni și teste cu mai puțini itemi și teste cu foarte mulți itemi, cum este cazul chestionarelor și inventarelor de personalitate care au sute de itemi Noi ne reamintim faptul că un test este de așteptat să fie mai fidel și mai valid cu cât are mai mulți itemi Referitor la cel mai mic număr de itemi pe care poate să-l aibă un anumit test, Paul Kline, o autoritate în domeniul psihodiagnosticului, susține că acesta nu poate fi mai mic de 10 Deci, niciun test și niciun chestionar nu poate fi acceptat în calitate de instrument psihodiagnostic dacă nu are cel puțin 10 itemi Un alt aspect important este cel legat de modul în care se formulează itemii Sarcina nu este deloc ușoară iar unii autori (DeVellis, 1991) a elaborat un fel de ghid ce cuprinde mai multe recomandări din care Kaplan, K R și Saccuzzo, D (2005) rețin următoarele șase: 1 Definiți clar ceea ce vreți să măsurați Pentru aceasta utilizați teoria substantivului în calitate de ghid și încercați să faceți itemii atât de specifici cât este posibil; 2 Creați o bancă de itemi Teoretic, toți itemii sunt aleși întâmplător dintr-un univers de conținut al itemilor În practică, totuși, grija în selectarea și dezvoltarea itemilor este valabilă Evitați itemii redundanți În fazele inițiale poate doriți să scrieți 3 sau 4 variante pentru fiecare item ce urmează a fi utilizat în structura noului test; 3 Evitați, pe cât posibil, itemii cu lungime mare, deoarece aceștia sunt buni foarte rar; 4 Mențineți nivelul de dificultate al lecturii și înțelegerii cât mai potrivit pentru cei care vor răspunde la test; 5 Evitați itemii cu un caracter echivoc, adică cei care conduc la două sau mai multe idei în același timp De exemplu, să ne referim la un item care solicită respondentului să răspundă cu „acord” sau „dezacord” la afirmația „Votez democrații deoarece sprijin programe sociale” Aici sunt, de fapt, două afirmații în raport cu care respondentul trebuie să-și exprime acordul: „Votez democrații” și „Eu sprijin programele sociale”; 6 Combinați itemii formulați pozitiv și negativ Uneori, respondenții dezvoltă așa-numitul „set al răspunsului încuviințat” Aceasta înseamnă că respondenții vor tinde să răspundă cu „sunt de acord” la majoritatea itemilor Or, pentru a evita o asemenea tendință, trebuie să includeți și itemi care sunt formulați în direcție opusă De exemplu, într-un test ce măsoară 84 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN depresia, regăsim și itemi formulați pozitiv, de genul „M-am simțit deprimat” dar și itemi formulați în direcție opusă, de genul „M-am simțit plin de speranță privind viitorul” Teme de reflecție/autoevaluare: 1 Care credeți că sunt avantajele și dezavantajele în cazul în care testul este foarte scurt și în cazul în care testul este foarte lung 2 La ce categorii de instrumente psihodiagnostice se aplică cel mai bine ghidul lui DeVellis ? 2 Tipuri de analiză de itemi Pentru a înțelege mai bine ce înseamnă analiza itemului vom apela la o comparație extrem de utilă și de interesantă oferită de D Laveault și J Gregoire, 1997 (apud Stan, A , 2002) Acești autori compară analiza itemilor cu repetiția unei orchestre în care instrumentele trebuie să cânte armonios și să intervină într-un mod foarte precis „Totul trebuie să producă o senzație muzicală aparte corespunzând intențiilor compozitorului și ale dirijorului” Analiza itemului apare ca fiind necesară atunci când construim un test nou și atunci când dorim să facem o nouă revizie a unui test care a fost folosit o anumită perioadă de timp dar care dă semne că unii itemi nu mai sunt valizi Analiza itemului presupune o analiză cantitativă, cât și una calitativă Cea cantitativă presupune utilizarea unor procedee statistice pentru calcularea unor indici, precum, de exemplu, indexul dificultății itemului și indexul discriminării itemului Analiza calitativă vizează, pe de o parte, conținutul și, pe de altă parte, formatul itemilor Criteriile folosite pentru a selecta itemii depind foarte mult de obiectivele urmărite de către constructorul de test De exemplu (Cohen, J R , Swerdlik, E M , 2005) un constructor de teste poate considera ca fiind cei mai buni itemi cei care contribuie în mod optim la fidelitatea internă a testului, în timp ce alt constructor de teste poate dori să proiecteze un nou test cu cea mai mare valoare posibilă a validității referitoare la criteriu Printre mijloacele pe care le poate folosi pentru analiza itemului pot fi menționate următoarele: a) un index al dificultății itemului; b) un index al discriminării itemului; c) un index al fidelității itemului; d) un index al validității itemului Noi ne vom ocupa, în capitolele următoare, mai ales de primele două forme de index Analiza calitativă a itemului presupune utilizarea unor variate proceduri nonstatistice (deoarece nu poate fi vorba despre o abordare numerică) de analiză, după cum am mai afirmat și mai sus, a conținutului și formatului Trebuie găsită cea mai bună formulare a itemului De aceea trebuie inițiate cercetări în această direcție, în sensul că cei care răspund la un test nou sunt rugați să răspundă la unele întrebări de genul celor prezentate în tabelul următor (Cohen, J R , Swerdlik, E M , 2005): 85 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Problema Exemplu de întrebare Sensilibilitatea culturală Ai simțit că unii itemi au fost discriminatori în raport cu anumite grupuri de subiecți Dacă da, de ce ? Validitatea de fațadă Pare testul că măsoară ceea ce așteptați să măsoare ? Dacă nu, ce este contrar așteptărilor ? Aplicantul testului V-a afectat în vreun fel conduita aplicantului testului performanțele dvs ? Dacă, da, cum ? Mediul de aplicare A afectat în vreun fel condițiile din sala de testare performanța dvs la test ? Dacă da, cum ? Corectitudinea testului Credeți că testul este corect în raport cu ceea este considerat că măsoară ? De ce sau de ce Limbajul testului nu ? În raport cu care dintre instrucțiuni sau alte aspecte scrise ale testului ați avut dificultăți de înțelegere ? Lungimea testului Ce ați simțit, referitor la lungimea testului, în privința: a) timpul necesar pentru completare; b) numărul de itemi ? Ghicitul răspunsului Ați ghicit la vreunul dintre itemii testului ? Care credeți că este procentul itemilor la care ați ghicit ? Ați utilizat o strategie particulară pentru a ghici sau ați ghicit la întâmplare ? Integritatea subiectului Credeți că s-a putut trișa la acest test ? Dacă da, descrieți metodele ce credeți că au fost utilizate Starea mentală și fizică a subiectului Cum ați descrie starea dvs mentală la începutul testării ? Credeți că această stare a afectat în vreun fel rezultatele obținute ? Dacă da, cum ? Cum descrieți starea dvs fizică la începutul testării ? Credeți că această stare a afectat în vreun fel rezultatele obținute ? Dacă da, cum ? Starea mentală și fizică a sbiectului Cum ați descrie starea dvs mentală pe parcursul testării ? Credeți că această stare a afectat în vreun fel rezultatele obținute ? Dacă da, cum ? Cum ați descrie starea dvs fizică pe parcursul testării ? Credeți că această stare a afectat în vreun fel rezultatele obținute ? Dacă da, cum ? Impresia generală a subiectului Care este impresia dvs generală privind acest test ? Ce sugestii ați oferi constructorului de tes pentru îmbunățățire ? 86 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Preferințele subiectului Pregătirea subiectului Ați găsit vreuna din părțile testului ca având un efect educațional, distractiv sau în alt fel recompensator ? Ce v-a plăcut și ce nu v-a plăcut în mod special la acest test ? Ați găsit vreuna din părțile testului care să provoace anxietate, condescendență sau să supere în alt fel ? De ce ? Cum v-ați pregătit pentru acest test ? Dacă ar fi să sfătuiți pe alții cum să se pregătească pentru test, ce i-ați spune ? Întrebările pot fi prezentate fie în oral, fie în scris În plus, în funcție de obiectivele urmărite de utilizatorul de test, întrebările pot fi prevăzute cu mai multe modalități de răspuns, cum ar fi, răspuns dihotomic, de tipul „Adevărat-fals” sau cu mai multe variante de răspuns De asemenea, pentru mai multă siguranță este recomandabil ca să se asigure confidențialitatea răspunsurilor subiecților Teme de reflecție/autoevaluare 1 De ce este necesară analiza cantitativă a itemului? 2 De ce este necesară analiza cantitativă a itemului ? Întrebări de autoevaluare: 1 Ce este, de fapt, itemul unui test ? 2 Ce forme alternative există pentru itemi și analiza de itemi 3 Ce efecte poate avea scurtarea lungimii unui test ? 4 Ce efecte poate avea mărirea dimensiunii testului ? 5 Câți itemi poate avea un test? 6 De cine depinde numărul itemilor ? 7 Cum se poate construi un nou test ? 8 În ce constă analiza cantitativă a itemilor ? 9 În ce constă analiza calitativă a itemilor ? 10 Ce tipuri de index pot fi calculate ? 11 Cum se poate asigura feed-back-ul pentru constructorul de test referitor la aspectele calitative ale noului test ? 12 De ce este bine ca, atunci când verificăm aspectele calitative ale unui test nou, să păstrăm confidențialitatea răspunsurilor ? BIBLIOGRAFIE: 1 COHEN, J R , Swerdlik, E M (2005) Psychological Tesing andAssessment An Introduction to Tests andMeasurement McGraw-Hill International Edition 2 CLINCIU, A I (2005) Psihodiagnostic Brașov: Ed Universității „Tansilvania” 3 FRIEDENBERG, L (1995) Psychological testing Design, Analysis, anduse Allyn & Bacon 4 KAPLAN, M R , SACCUZZO, P D (2005) Psychological Testing Principles, Applications, and Issues Thomson Wadsworth 5 MINULESCU, M (2003) Teorie și practică în psihodiagnoză Testarea intelectului București: Editura Fundației România de Mâine 87 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 6 STAN, A (2002) Testul psihologic Evoluție, construcție, aplicații Iași: Polirom 88 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare nr 2 Gradul de dificultate al itemului Cuprins: 1 La ce se referă gradul de dificultate al itemului ? 2 Cum se calculează dificultatea itemului Obiective: La sfârșitul acestei unități de învățare studenții vor fi capabili să: • explice în ce constă gradul de dificultate al unui item; • cunoască ce se întâmplă în cazul în care itemii sunt foarte ușori sau foarte dificili; • înțeleagă de ce valoarea cea mai bună a nivelului de dificultate este p = 0,50; • poată calcula nivelul de dificultate al unui item și, respectiv, al unui test 1 La ce se referă gradul de dificultate al unui item ? Trebuie să recunoaștem că întrebarea nu este prea dificilă Un răspuns îl putem oferi imediat, adică se pune problema cât de greu sau cât de ușor este itemul pentru subiecți Da, dar subiecții sunt destul de diferiți în ceea ce privește însușirea sau trăsătura psihică pe care vrea să o măsoare testul Și testul tocmai asta urmărește și anume, să scoată în evidență diferențele interindividuale Un item poate fi dificil datorită faptului că niciunul dintre subiecții pe care se aplică nu îl poate rezolva Iată, de exemplu, dacă ne-am adresa cu un test unui grup de 100 de studenți la psihologie, din care face parte un item de genul: “Cât fac 456 932 x 297465 ?” În mod sigur nu va putea răspunde nimeni corect, ceea ce înseamnă că itemul este foarte dificil În acest caz, p = 0, p însemnând procentul celor care răspund la test Dar dacă, în cadrul testului, există și un item de genul “Cât fac 4 x 2 ?” Evident că, în acest caz, toți studenții vor răspunde correct, deoarece la o asemenea întrebare răspund corect și elevi din ciclul primar Aici p = 100 și asta înseamnă că toți subiecții răspund correct În ambele cazuri, itemii sunt nefolositori, deoarece ei nu ne oferă niciun fel de informație referitoare la deprinderile de calcul ale subiecților Să presupunem acum că, în caz de aplicare a testului, avem un item la care răspund corect doar 10 subiecți (caz în care p = 10) Acest item prezintă un nivel înalt de dificultate Și în cazul în care ar răspunde 90 de subiecți, itemul ar avea un nivel redus de dificultate Dacă avem în vedere mijlocul scalei, respectiv, p = 50, cu cât valoarea lui p va crește, cu atât nivelul de dificultate al itemului va scădea și, invers, cu cât valoarea lui p va fi mai mică, cu 89 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN atât nivelul de dificultate al itemului va crește Deci, ar rezulta, chiar și la o analiză mai superficială, că valoarea optimă a nivelului de dificultate al unui item este 0 50 Dar pot fi aduse dovezi mai serioase Astfel, dacă la un test aplicat pe 100 de subiecți, reușesc 50 dintre ei, înseamnă că, firesc, ceilalți 50 nu reușesc În felul acesta, putem să comparaăm pe fiecare subiect din grupul de 50, care au reușit la item, cu fiecare dintre cei 50 de subiecți care nu au reușit la item Avem, astfel, 50 x 50 sau 2500 comparații perechi sau biți ai informației diferențiale (Anastasi, A , 1988) Oricare altă combinație nu conduce la o asemenea valoare Pentru mai multă siguranță verificați tabelul de mai jos: 0 x 100 = 0 10 x 90 = = 900 20 x 80 = = 1600 30 x 70 = = 2100 40 x 60 = = 2400 50 x 50 = 2500 60 x 40 = = 2400 70 x 30 = = 2100 80 x 20 = = 1600 90 x 10 = = 900 100 x 0 = 0 Temă de reflecție/autoevaluare Alcătuiți un test care să cuprindă mai mulți itemi, fiecare dintre ei având un nivel de dificultate diferit, dar, pe ansamblu, nivelul de dificultate al testului să fie 0,50 2 Cum se calculează dificultatea itemului Analizând tabelul de mai sus, am putea trage o concluzie foarte simplă și anume, testul cel mai bun este cel care este trecut de 50 % dintre subiecți, adică fiecare dintre itemii săi are nivelul de dificultate, p = 50 A Anastasi recomandă, însă, ca să fie selectați itemii cu nivele de dificultate diferite dar a căror medie a dificultății să fie 0,50 Totodată, această autoare vorbește de utilitatea unor scale de interval pentru determinarea nivelului de dificultate al unui item (Anastasi, A , 1988, 1996) Dacă presupunem o distribuție normală a unei trăsături psihice măsurată de un anumit item, nivelul de dificultate al itemului poate fi exprimat în funcție de o scală cu unități de interval egale prin referirea la o tablă a frecvențelor curbei normale Știm că aproximativ 34% din cazuri într-o distribuție normală cad între medie și distanța de Ic în oricare direcție Dacă, de exemplu, un item a fost trecut de 84% dintre subiecți, înseamnă că acest procent cuprinde 50% din partea superioară a distribuției și 34% din partea inferioară a acesteia Deci, în concluzie, acest item cade în 1c sub medie 90 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Un item trecut de 16% din cazuri va cădea în Io deasupra mediei, pentru că, deasupra acestui punct, există 16% sin cazuri (50 - 34 = 16) Iar un item la care au reușit 50% din cazuri, cade exact pe medie și ar avea, astfel, valoarea 0 pe această scală Deoarece dificultatea itemului exprimată în funcție de curba normală, ce presupune deviația standard ca distanță, implică valori negative și zecimale, ele sunt convertite într-o scală ușor de mânuit și care este desemnată prin litera grecească delta A Relația dintre A și curba normală - distanțele o (valori z) este următoarea: A = 13 + 4z În această formulă 13 și 4 sunt constante alese pentru a oferi o scală care să elimine valorile negative și zecimalele Un item trecut de aproape 100% din subiecți (99,87%), căzând în - 3o, ar avea o valoare a lui A = 1 (așa cum reiese din formulă: 13 + (4)(-3) = 1) La cealaltă extremă, un item care a fost trecut de mai puțin de 1% din subiecți (0,13%), ar cădea în + 3o și ar avea valoarea lui A = 25 (așa cum apare din formulă: 13 + (4) (3) = 25) Și, în sfârșit, un item ce ar cădea pe medie va avea valoarea lui A = 0 (așa cum reiese din formulă: 13 + (4) (0) = 25 Se poate trage concluzia că A este o scală în care, practic, toți itemii cad, în ceea ce privește nivelul de dificultate, între valorile 1 și 25, cu o medie = 13 Referitor la calcularea nivelului de dificultate al unui item mai este o problemă extrem de importantă La un item se poate răspunde corect și din întâmplare sau, cum se mai spune mai simplu, ghicind răspunsul De exemplu, dacă la un item se răspunde dihotomic, prin “Da” sau “Nu”, “Adevărat” sau “Fals”, subiectul poate ghici 50 % din răspunsurile corecte Sau, dacă la un item, există 4 variante de răspuns, printre care și cel correct, subiectul poate ghici răspunsul corect în procent de 25% Nivelul de dificultate optim al itemilor se află la jumătatea diferenței dintre numărul maxim de subiecți ce răspund correct (100%) și nivelul reușitei bazată numai pe șansă (noroc) Astfel, nivelul optim de dificultate al unui item prevăzut cu patru variante de răspuns, printre care și cel corect este de aproximativ 0,625: Pentru a se ajunge la această valoare, se parcurg următorii pași (Kaplan, M R , Saccuzzo, P D , 2005): 1 Găsiți jumătate din diferența dintre 100% succes și performanța pe bază de șansă 100 - 0,25 0,75 = -— = 0,375 2 2 2 Adăugați această valoare probabilității de a obține răspunsul corect pe bază de șansă 0,375 + 0,25 = 0,625 O metodă mai simplă pentru obținerea aceluiași rezultat este de a adăuga 1,00 la probabilitatea de a reuși pe bază de șansă și apoi de a divide la 2 Astfel: 1,00 + 0,25 = 0,625 Temă de reflecție/autoevaluare: 91 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Pentru un item există două variante de răspuns Având în vedere probabilitatea de a răspunde corect pe bază de șansă, care ar trebui să fie nivelul de dificultate al acestui item ? 2 Întrebări de autoevaluare: 1 Ce înseamnă că un item este prea dificil ? 2 Ce i se poate imputa unui asemenea item ? 3 Ce înseamnă că un item este prea ușor ? 4 Ce i se poate imputa unui asemenea item ? 5 Cum se poate pune în evidență nivelul de dificultate al unui item 6 Care este valoarea optimă a nivelului de dificultate al unui item ? 7 La ce se referă sintagma „biți ai informației diferențiale ?” 8 Care este utilitatea unei scale de interval ? 9 Care sunt principalele valori ale unei scale de interval ? 10 Care sunt pașii ce trebuie parcurși pentru a calcula exact nivelul de dificultate al unui item BIBLIOGRAFIE: 1 ALBU, M (1998) Construirea și utilizarea testelor psihologice Cluj: Editura Clusium 2 ALBU, M , PITARIU, H (1993) Proiectarea testelor de cunoștințe și examenul asistat de calculator Cluj-Napoca: Editura Casa cărții de știință 3 COHEN, J R , SWERDLIK, E M (2005) Psychological TestingandAssessment An Introduction to Tests andMeasurement McGraw-Hill International Edition 4 CLINCIU, A I (2005) Psihodiagnostic Brașov: Ed Universității „Transilvania” 5 FRIEDENBERG, L (1995) Psychological Testing Design, Analzsis, and use Allyn & Bacon 6 KAPLAN, M R , SACCUZZO, P D (2005) Psychological Testing Principles, Applications, and Issues Thomson Wadsworth 7 MINULESCU, M (2003) Teorie și practică în psihodiagnoză Testarea intelectului București: Editura Fundației România de Mâine 8 STAN, A (2002) Testul psihologic Evoluție, consatrucție, aplicații Iași: Polirom 92 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Unitatea de învățare nr 3 Capacitatea de discriminare a itemului Cuprins: 1 Ce este analiza discriminării itemului ? 2 Cum se calculează indexul de discriminare al itemului Obiective: La sfârșitul acestei unități de învățare, studenții vor fi capabili să: • cunoască în ce constă capacitatea de discriminare a itemului; • înțeleagă ce legături există cu nivelul de dificultate al itemului; • cunoască modalitățile de calcul a indexului de discriminare a itemului • poată exemplifica ușor 1 Ce este analiza discriminării itemului ? Dacă nivelul de dificultate al unui item arată cât de ușor sau cât de dificil este un item, nivelul de discriminare arată în ce măsură subiecții, care obțin rezultate bune la întregul test, reușesc și la acest item și, pe de altă parte, în ce măsură subiecții, care obțin rezultate slabe la întregul test, nu reușesc la acest item După cum deja știți, fiecare test măsoară o anumită însușire sau caracteristică psihică și fiecare item din structura sa trebuie să măsoare același lucru Deci, la subiecții care obțin scoruri mari la întregul test, înseamnă că la ei nivelul de dezvoltare și de funcționalitate al acelei însușiri sau capacități psihice este foarte înalt Iar la subiecții care obțin scoruri mici la întregul test, acest nivel este scăzut Această diferențiere o vor realiza și itemii, deoarece fiecare dintre ei măsoară același lucru precum testul luat în întregul său Deci, pentru cei care au un nivel ridicat de dezvoltare și de funcționalitate al unei însușiri sau capacități psihice scorurile la întregul test vor fi mari și ei vor reuși, în general, și la itemii testului Invers, la subiecții la care nivelul de dezvoltare și de funcționalitate al aceleiași însușiri sau capacități psihice supuse măsurării este redus, vom regări scoruri slabe la întregul test și eșecuri la itemii ce îl alcătuiesc Și, dacă tot nu s-a înțeles, să apelăm la o comparație, care, desigur, este contraindicată Cântărim o persoană cu un cântar mare și vedem că are 100 de kg Apoi îl cântărim cu mai multe cântare mici Vom constata că persoana respectivă va avea tot 100 de kg Rugăm o altă persoană să accepte să fie cântărită și constatăm că va avea 40 de kg Apoi, folosind mai multe cântare mici, o să vedem că persoana respectivă va avea tot 40 de kg Deci și cântarul mare și cântarele mici au capacitatea de a discrimina persoanele în funcție de greutate Revenind la test, în cazul în care un test este foarte bine construit, subiectul bun, dotat, va avea un scor mare la test și va reuși la toți itemii iar un subiect slab, nedotat, va avea un scor foarte slab la test și nu va reuși aproape la toți itemii Testul, însă, așa după cum am spus de atâtea ori, prezintă anumite imperfecțiuni, care, se răsfrâng, desigur, și asupra unor itemi De aceea, practic, nu întâlnim situația în care toți subiecții buni să răspundă corect la toți itemii și subiecții slabi să nu răspundă corect la niciun item Pe de altă 93 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN parte, nici subiecții buni și nici subiecții slabi nu au exact același nivel de dezvoltare al însușirii sau capacității psihice supuse măsurării De aceea, testul trebuie să evidențieze cât mai exact posibil acest nivel de dezvoltare Și atunci, subiecții, deși se află într-un anumit registru de dezvoltare al însușirii sau capacității psihice respective (înalt sau scăzut), vor trebui să fie și ei diferențiați sau, ca să fim consecvenți cu terminologia, discriminați Aceasta înseamnă că cei buni, dar nu excelenți, vor mai greși la unii itemi și, pe de altă parte, cei slabi, dar nu extrem de slabi, vor reuși la unii itemi Pot să apară și anumite paradoxuri Cei foarte buni să nu reușească la un anumit item și cei slabi să reușească la acesta Putem înțelege ușor că, în asemenea cazuri, este ceva în neregulă cu itemii respectivi, ceea ce ne obligă la o reevaluare a acestora Ei nu pot să rămână așa cum sunt în structura testului, deoarece s-ar putea ca ei să măsoare ceva ce nu are legătură cu testul din care fac parte Temă de reflecție/autoevaluare: Nivelul de dificultate optim al unui item este 0,50 Ce putem spune în legătură cu capacitatea lui de discriminare? 2 Indexul de discriminare al itemului În practică există foarte multe proceduri ce pot fi folosite pentru calcularea indexului de discriminare al itemului Cea mai frecvent utilizată este cea care ia în atenție 3 grupe de subiecți, care, la rândul lor, alcătuiesc numărul total al subiecților ce răspund la un test (N): a) grupul celor care au obținut răspunsuri bune la test; b) grupul celor care au obținut răspunsuri mediocre la test; c) grupul celor care au obținut rezultate slabe la test Primul grup poate fi notat cu U (de la Upper), al doilea, cu M (de la Middle) și, al treilea, cu L (de la Lower) După alți autori, însă, este suficient să luăm în atenție numai grupul subiecților care au răspuns mai bine la test (U) și grupul subiecților care au obținut rezultate slabe la test (L) În acest caz se vorbește de metoda grupelor extreme (Friedenberg, L , 1995) și ea este utilizată cel mai frecvent pe testele de abilități, testele de personalitate, testele de interese și testele de atitudini Să luăm, mai întâi, un exemplu oferit de A Anastasi (1988, 1996) În urma aplicării unui test unui grup de 60 de studenți, îi împărțim, în funcție de rezultate, în cele 3 grupuri, fiecare cuprinzând câte 20 de studenți, respectiv, 33% (Trebuie să menționăm, în această paranteză că, după alți autori, procentul subiecților ce aparțin grupelor U și L poate fi 25% sau 27% În această privință, în 1979, Allen, M J și Yen W M , apud, Cohen, J R , Swerdlik, E M , 2005, ne asigură că, pentru cele mai multe aplicații, orice procentaj între 25 și 27 va produce estimări similare) Apoi înregistrăm răspunsurile corecte pentru fiecare item oferite de către studenții ce aparțin celor trei grupe Se alcătuiește un tabel în felul următor: Item U M L Dificultate U+M+L Discriminare U - L 1 15 9 7 31 8 2 20 20 16 56* 4 94 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 3 19 18 9 46 10 4 10 11 16 37 - 6* 5 11 13 11 35 0* 6 16 14 9 39 7 7 5 0 0 5* 5 În acest tabel sunt prezentate rezultatele pentru numai 7 itemi din cadrul testului După cum se poate observa, nivelul de dificultate al itemului se află însumând numărul subiecților din cele 3 grupe care răspund corect la toți itemii Pe de altă parte, valoarea discriminativă a fiecărui item poate fi aflată făcând diferența dintre numărul subiecților care răspund corect în grupul U și numărul subiecților care răspund corect în grupul L Itemii ce prezintă probleme sunt cei care sunt prevăzuți cu steluță Astfel, itemii 2 și 7 fac notă discordantă față de ceilalți itemi, în sensul că itemul 2 este prea ușor (56 de subiecți răspund corect) iar itemul 7 este prea greu (numai 5 subiecți răspund corect) În ultima coloană itemii 4 și 5 prezintă probleme, în sensul că, deși satisfăcători în ceea ce privește nivelul de dificultate, itemul 4 prezintă o valoare discriminativă negativă iar itemul 5 prezintă o valoare discriminativă egală cu zero Acești itemi nu pot să rămână așa în structura testului existent sau nou construit, deoarece ei, practic, nu prezintă niciun fel de utilitate Este clar că trebuie să fie supuși unor serioase acțiuni de analiză și evaluare sau, pur și simplu, pot fi scoși definitiv din componența testului A Anastasi arată că, în cazul în care numărul subiecților care reușesc la fiecare item din grupele U și L este exprimat în procente, indexul discriminării poate fi calculat prin diferența dintre cele două procentaje, precum în tabelul următor: Item Procent reușit ă U grup Procent reușită L grup Indicele discriminării U - L 1 75 35 40 2 100 80 20 3 95 45 50 4 50 80 - 30* 5 55 55 0* 6 80 45 35 7 25 0 25 După cum se poate observa din tabel, aceeași itemi prezintă probleme, respectiv itemii 4 și 5 Aceștia trebuie să fie renalizați pentru a se vedea dacă mai rămân în structura testului Deci și în cazul procentajului diferența dintre U și L constituie valoarea indexului discriminării pentru fiecare item Acesta poate fi evidențiat în mai multe forme, precum: U-L, ULI, ULD, D sau d Analizând datele din ambele tabele de mai sus, constatăm că, în afară de itemii care ridică probleme privind valoarea lor discriminativă, pentru ceilalți itemi valorile sunt diferite, de aceea apare întrebarea care dintre ele este cea mai bună ? Referitor la metoda utilizării procentajelor, R L Ebel (apud Stan, A , 2002) a propus, în 1965, o scală de repere pentru interpretarea valorică a indicelui de discriminare D: 95 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Interval valoric al lui D 0,40 și mai mult de la 0,30 la 0,39 de la 0,20 la 0,29 de la 0,10 la 0,19 sub 0,10 Interpretarea discriminării discriminare foarte bună discriminare bună discriminare slabă discriminare de limită fără utilitate Atunci, însă, când se folosește metoda efectuării diferenței dintre numărul răspunsurilor corecte oferite de subiecții ce aparțin celor două grupe, unii autori (Anastasi, A , 1988, 1996) fac următoarele precizări: a) itemii cu valoare discriminativă scăzută sunt cei care au o valoare a diferenței de la 3 în jos (diferența dintre U și L) și asta când grupurile comparate au aceeași dimensiune; b) cu cât grupurile sunt mai mari, ne așteptăm ca să apară diferențe mai mari, datorate șansei legate de un item nediscriminativ Pentru a înțelege și mai bine utilitatea calculării valorii indexului discriminării itemului vom lua și un alt exemplu (Cohen, J R , Sewrdlik, E M , 2005) A fost aplicat un test de cunoștințe pe un număr de 119 studenți În urma rezultatelor obținute au fost alcătuite cele două grupe, U și L, fiecare dintre ele cuprinzând 27%, respectiv, 32 de studenți O secvență vizând primii 5 itemi este prezentată în tabelul de mai jos Item U L U - L n d = U - L/n 1 20 16 4 32 0,13 2 30 10 20 32 0,63 3 32 0 32 32 1,00 4 20 20 0 32 0,00 5 0 32 -32 32 - 1 00 În primul rând trebuie menționat faptul că valoarea indicelui discriminprii testului se întinde între - 1,00 și + 1,00 Valoarea de - 1,00 indică faptul că toți subiecții ce aparțin grupului U nu reușesc la test și toți subiecții care aparțin grupului L reușesc la test Este o situație paradoxală ce solicită de urgență revizia sau eliminarea itemului din cadrul testului Valoarea de + 1,00 arată că toți subiecții ce aparțin grupului U reușesc la test și toți subiecții care aparțin grupului U nu reușesc la test Când o aceeași proporție a reușitei o regăsim la ambele grupe (U și L) valoarea discriminativă a testului este egală cu zero În acest caz itemul nu discriminează deloc între subiecți, de aceea este inutil Din aceste exemple reiese clar faptul că există o strânsă legătură între nivelul de dificultate al itemului și capacitatea lui de discriminare A Anastasi (1988, 1996), ne oferă un tabel care evidențiază relația dintre nivelul de dificultate al itemului și valoarea maximă a indexului discriminării Procentul subiecților Valoarea maximă ce reușesc la item a lui D 96 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 100 0 90 20 80 40 70 60 60 80 50 100 40 80 30 60 20 40 10 20 0 0 Cum de apar asemenea valori ale lui D ? Când toți subiecții din grupul U reușesc la item (50/50 = 100%) și toți subiecții din grupul L reușesc la acest item (0/50 = 0), atunci valoarea lui D (U - L) = 0 Când niciun subiect din grupul U (0/50 = 0) și niciun subiect din grupul L (0/50 = L) nu reușește la un item, atunci valoarea lui D este tot 0 Când toți subiecții din grupul U (50/50 = 100%) și niciun subiect din grupul L (0/50 = 0 %) atunci valoarea lui D = 100 Și aceasta este cea mai mare valoare a lui D Dacă reușesc la item 90 % din subiecți, asta înseamnă că au reușit toți din grupul U (50/50 = 100%) și 40 din grupul L (40/50 = 80%) În consecință, valoarea lui D (U - L) va fi 20 Dacă reușesc la item 80% din subiecți, asta înseamnă că toți subiecții din grupul U (50/50 = 100%) și numai 30 (30/50 = 60) din grupul L reușesc la item Făcând diferența vom constata că valoarea lui D = 40 Ș a m d Teme de reflecție/autoevaluare: 1 Care este explicația situației în care valoarea lui D (indicele de discriminare al itemului) este negativă ? 2 De ce itemul al cărui nivel de dificultate este 0,50 are cea mai mare valoare a indicelui de discriminare ? Întrebări de autoevaluare: 1 Ce este analiza discriminării itemului ? 2 Ce proceduri de calculare a indexului discriminării cunoașteți ? 3 Care este procedura recomandată de A Anastasi ? 4 În ce constă metoda grupurilor extreme ? 5 Care este procentul subiecților din grupurile U și L recomandat de autori ? 6 Ce trebuie făcut cu itemii ai căror valoare discriminativă este foarte scăzută 7 Care sunt simbolurile recomandate pentru indexul discriminării itemului ? 8 Care este opinia lui R L Ebel privind intervalul valoric al lui D ? 9 Dar a lui A Anastasi ? 10 Explicați ce se întâmplă atunci când valoarea lui D este - 1,00 și + 1,00 BIBLIOGRAFIE: 97 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 1 ALBU, M (1998) Construirea și utilizarea testelor psihologice Cluj: Editura Clusium 2 ALBU, M , PITARIU, H (1993) Proiectarea testelor de cunoștințe și examenul asistat de calculator Cluj-Napoca: Editura Casa cărții de știință 3 COHEN, J R , SWERDLIK, E M (2005) Psychological Testing andAssessment An Introduction to Tests andMeasurement McGraw-Hill International Edition 4 CLINCIU, A I (2005) Psihodiagnostic Brașov: Ed Universității „Transilvania” 5 FRIEDENBERG, L (1995) Psychological Testing Design, Analysis, anduse Allyn & Bacon 6 KAPLAN, M R , SACCUZZO, P D (2005) Psychological Testing Principles, Applications, andIssues Thomson Wadsworth 7 MINULESCU, M (2003) Teorie și practică în psihodiagnoză Testarea intelectului București: Editura Fundației România de Mâine 9 STAN, A (2002) Testul psihologic Evoluție, consatrucție, aplicații Iași: Polirom 98 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN MODULUL V ETALONAREA ȘI STANDARDIZAREA TESTELOR Unitatea de învățare nr 1 Etapele etalonării și standardizării testelor Cuprins: 1 Definirea conceptelor și etapele construirii testelor 2 Modele de scale utilizate în etalonare și standardizare Obiective: La sfârșitul acestei unități de învățare studenții vor fi capabili să: • definească corect concepte precum: construcția testului, etalonare, standardizare; • precizeze care sunt etapele parcurse în vederea etalonării unor noi teste; • diferențeze între acțiunea de etalonare și cea de re-etalonare a testelor; • înțeleagă bine ce înseamnă reprezentaivitatea eșantionului 1 conceptelor Definirea De ce trebuie să fie testele etalonate și standardizate ? Să presupunem că vom construi un nou test de inteligență pentru studenții din România și numai un singur student nu îl includem în lot Toate rezultatele obținute le vom grupa în mai multe clase sau categorii, plecând de la cele mai bune și ajungând la cele mai slabe Desigur, vor exista mulți studenți care vor obține același rezultat, de aceea trebuie să luăm în considerație și frecvența răspunsurilor Deci se face un fel de clasament, pe primele locuri fiind rezultatele cele mai bune și, pe ultimile locuri, rezultatele cele mai slabe Singurului subiect care nu a fost inclus în lot îi aplicăm noul test de inteligență creat și, apoi, rezultatul pe care îl obține îl raportăm la „clasamentul” rezultatelor obținute de toți subiecții incluși în lot Vom vedea dacă studentul respectiv se plasează pe o poziție mai spre vârful clasamentului, mai spre mijloc sau mai spre baza acestuia Deci comparăm rezultatul subiectului cu rezultatele întregului lot Pornind de la acest exemplu, trebuie să deosebim între situația în care un test deja există și cea în care se construiește un test nou Pentru testul deja existent nu se pune problema etalonării lui, presupunând că există un etalon, ci, eventual, a reetalonării lui, în cazul în care etalonul nu mai corespunde De asemenea, dacă testul provine din altă țară, deși el are un etalon (în limba engleză se folosește termenul de „norme” - norms - în loc de etalon), trebuie să fie re-etalonat, trecând, mai întâi, prin faza traducerii și adaptării De aici putem trage concluzia conform căreia construirea unui test nou presupune automat și etalonarea lui însă etalonarea nu presupune automat și construirea testului, deoarece acesta poate exista deja (construit de alții) sau este luat din altă parte 99 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN O altă noțiune care trebuie să o luăm în atenție este cea de revizie a testelor Mai întâi, să dăm exemple Bateria Stanford-Binet, care actualmente, este folosită sub denumirea de Stanford-Binet Intelligence Scale (fifth edition) a trecut prin următoarele etape de revizuire: 1905 - Scala de inteligență a lui A Binet și T Simon; 1908 - prima revizie a Scalei de inteligență Binet-Simon; 1911 - a doua revizie a Scalei de inteligență Binet-Simon; 1916 -apare versiunea Stanford-Binet Intelligence Scale, sub îngrijirea lui L Terman; 1937 -prima revizie a variantei lui Terman; 1960 - a doua revizie; 1972 - a treia revizie; 1985 - a patra revizie (sub îndrumarea lui R L Thorndike, E Hagen și J Sattler); 2003 - a cincea revizie, sub îndrumarea lui G Roid Bateria WAIS - III, respectiv, Scala de inteligență a lui Wechsler pentru adulți a parcurs, de asemenea, mai multe etape de revizie Prima variantă a apărut în anul 1939, sub denumirea Wechsler-Bellevue Intelligence Scale I A doua a apărut în 1942, sub denumirea de The Army Wechsler iar a treia, în 1946, sub denumirea Wechsler Bellvue Intelligence Scale II În 1955 apare, de fapt, prima variantă a Scalei Wechsler de inteligență pentru adulți (WAIS) Această variantă este revizuită în 1981, devenind, WAIS -R și, apoi, din nou, în 1997, variantă care există și în prezent, cunoscută sub denumirea WAIS - III (Scala de inteligență Wechsler pentru adulți - III) Revizia este o acțiune foarte amplă, care poate dura mult timp (de exemplu, revizia Bateriei Stanford-Binet, fourth edition, a durat între 6 și 8 ani) și ea presupune re-analizarea și re-evaluarea testului din mai multe puncte de vedere: conținut, norme, direcții de administrare și cotare etc Părțile testului care sunt mai sensibile la schimbare sunt cele ce presupun folosirea limbajului Un test preluat din America, de exemplu, trebuie tradus și adaptat, deoarece acesta poate cuprinde informații care nu sunt specifice și nu sunt cunoscute de către populația românească Astfel, sunt unele aspecte legate de istorie, de literatură, de obiceiuri, de tradiții, de preocupări etc De exemplu, fotbalul american este un sport foarte dur, foarte agresiv față de fotbalul european Deci, răspunsul pozitiv la întrebarea „Îți place fotbalul ?” înseamnă cu totul altceva pentru un subiect român decât pentru un subiect american Sau dacă unii itemi presupun operarea cu sistemul de măsurare american, pentru subiecții români trebuie neapărat să fie transpus în sistemul de măsurare folosit în România La întrebarea „Când se impune revizuirea unui test ?” putem apela la sugestiile făcute de Asociația Psihologilor Americani - APA - (1996, Standard 3 18): un test poate fi menținut în forma actuală atâta timp cât este folositor și el trebuie să fie revizuit „atunci când apar schimbări semnificative în domeniul reprezentat sau când condițiile noi pentru utilizare și interpretare fac testul să fie nepotrivit pentru ceea ce intenționează să măsoare” În opinia altor autori însă, testele trebuie să fie revizuite atunci când există oricare din următoarele condiții (Cohen, R J , Swerdlik, E M , 2005): 1 Materialele stimul par a fi demodate și subiecții nu se pot raporta la ele; 2 Conținutul verbal al testului, incluzând instrucțiunile pentru administrare și itemii testului, conțin un vocabular depășit, care nu este imediat înțeles de către subiecți; 3 Întrucât cultura populară se schimbă și cuvintele capătă noi înțelesuri, anumite cuvinte sau expresii din conținutul itemilor sau din direcțiile de administrare pot fi percepute ca nepotrivite sau chiar ofensatorii pentru un anumit grup particular, de aceea ele trebuie să fie schimbate; 4 Normele testului nu mai sunt adecvate datorită schimbărilor în populația subiecților potențiali; 100 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 5 Normele testului nu mai sunt adecvate datorită schimbărilor pe linia abilităților măsurate și datorită extinderii lor (în sus sau în jos) dacă acest lucru devine necesar; 6 Fidelitatea sau validitatea testului, precum și eficacitatea itemilor individuali, pot fi semnificativ îmbunătățite printr-o revizie 7 Teoria ce a stat la baza testului original a fost îmbunătățită semnificativ și schimbările trebuie să fie reflectate în design-ul și conținutul testului Privitor la elaborarea și construirea unui test nou, trebuie să precizăm faptul că este obligatoriu să fie parcurse mai multe etape: 1 Analiza cât mai corectă, cât mai clară a constructului, a însușirii sau caracteristicii psihice care urmează a fi testată cu instrumentul psihodiagnostic nou Trebuie definit foarte clar conceptul și, apoi, operaționalizat, adică descris din perspectivă comportamentală, actele comportamentale fiind evaluabile și măsurabile Trebuie răspuns, cât mai clar, la întrebări de genul: - ce înseamnă a fi sau a nu fi inteligent ? - ce înseamnă a fi sau a nu fi anxios ? - ce înseamnă a avea sa a nu avea memorie logică ? - ce înseamnă a fi sau a nu fi sociabil ? Am mai vorbit despre asta, dacă vă mai amintiți, la validitatea privitoare la construct 2 Imaginarea modalităților de simulare a situațiilor reale în raport cu care subiectul își exteriorizează și își obiectivează capacitățile, trăsăturile sale psihice În această privință, un rol foarte important îl are imaginația constructorului de test El trebuie să dea dovadă de inventivitate și ingeniozitate Uneori testele impresionează prin forma extrem de originală a itemilor, însă numai aceasta nu asigură automat și o bună fidelitate și validitate a testului De aceea, constructorul de test nu trebuie să acorde mai mare importanță formei itemilor, în detrimentul caracteristicilor psihometrice ale testelor Elaborarea testului presupune, de altfel, respectarea mai multor cerințe și anume: a) alegerea, selectarea materialului utilizat în cadrul testului (cuvinte, propoziții, numere, figuri, expresii, cuburi, analogii, situații problematice, întrebări, evaluări, autoevaluări etc ); b) formularea instructajului și a exemplelor pentru familiarizarea subiecților cu principiul de construcție al itemilor testului; c) precizarea tipului de răspuns (un singur răspuns, mai multe răspunsuri la alegere, sarcină de executat, rezolvarea problemei, exercițiu logic etc ; d) elaborarea foii de răspuns, care trebuie să fie folosită numai în formă originală; e) precizarea modului de cotare (puncte, procente, calificative), precum și a grilelor ce pot fi folosite; f) precizarea, dacă este necesar, a timpului cât să dureze testarea, precum și a faptului dacă este vorba despre un test individual sau test colectiv; 3 Odată construit, testul nou se aplică în forma unei probe oarbe pe un eșantion mai mic, deoarece este o primă verificare a acestuia Se acordă atenție unor probleme precum: nivelul de dificultate al itemilor, capacitatea lor de discriminare, dimensiunea testului, dacă este bine formulat și dacă este suficient instructajul, reacțiile subiectului la test etc ) În funcție de rezultate, se fac modificările necesare; 4 Etalonarea, etapă ce vizează utilizarea unui ansamblu de procedee statistice pe baza cărora pot fi diferențiați și clasificați subiecții incluși în eșantionul folosit în funcție de rezultatele lor obținute la un anumit test În urma unor calcule statistice (trebuie să recunoaștem că, actualmente, acestea se pot realiza ușor folosind calculatorul) rezultatele obținute de membrii eșantionului sunt grupate în forma unor norme sau etaloane, care, ulterior, sunt folosite drept cadre de referință la care raportăm rezultatele unui anumit subiect 101 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN În alegerea eșantionului trebuie să respectăm câteva cerințe obligatorii, mai importante fiind două: a) reprezentativitatea eșantionului; un eșantion este reprezentativ atunci când el reflectă fidel caracteristicile populației de referință Fiecare membru al eșantionului reprezintă un subgrup din populația de referință Procedeele de selectare a eșantionului sunt mai multe, cum ar fi, de exemplu, pasul statistic, alegerea la întâmplare etc Deci eșantionul este o fracțiune din populația de referință De exemplu, dacă noi construim un test de inteligență pentru elevii de liceu (populația de referință), putem să-l aplicăm în vederea elaborării normelor (etalonului) pe un grup mult mai restrâns (eșantionul), care însă trebuie să fie reprezentativ pentru toată populația de referință Dacă numărul real al elevilor de liceu este 1 000 000, eșantionul reprezentativ, stabilit în baza pasului statistic (1/1000), ar cuprinde 1000 de elevi Este ca și cum am realiza o coloană de 1 000 000 de elevi și apoi îi selectăm pe cei de pe pozițiile 1, 1001, 2001, 3001, 4001 ș a m d Fiecare membru al eșantionului reprezintă câte 1000 de elevi din populația de referință; b) eșantionul trebuie să fie eterogen în ceea ce privește însușirea sau caracteristica psihică măsurată și, pe de altă parte, să fie cât mai omogen posibil referitor la alte variabile, în afara celei testate, cum ar fi: vârsta, sexul, pregătire socio-profesională, nivel socio-cultural etc Revenind la exemplul de mai sus, eșantionul ar trebui să cuprindă 500 de fete și 500 de băieți, câte 250 de elevi pentru fiecare an al ciclului liceal și, de asemenea, membrii eșantionului trebuie să provină din toate profilele liceelor din țară Teme de reflecție/ autoevaluare: 1 Care ar fi consecințele, în cazul în care eșantionul ar cuprinde elevii numai dintr-o anumită zonă geografică a țării ? 2 Care ar fi consecințele, în cazul în care eșantionul ar cuprinde elevi numai de la un anumit profil liceal ? 2 Modele de scale folosite în etalonare și standardizare Cotele brute (raw score) nu spun nimic în sine, cel mult ele pot fi raportate la media grupului de referință Notele la teză la un anumit obiect de învățământ la o anumită clasă aparțin practic, tuturor nivelelor, adică vor fi de la 4 (notele sub 4 înseamnă același lucru, adică tot căzut) la 10 La fel se vor întâmpla lucrurile și la o altă clasă, de la un liceu dintr-o altă localitate Vom putea spune că, în interiorul acestei clase, elevul Ionescu a obținut o notă mai mare decât elevul Popescu (primul a obținut 9 și al doilea, 7) În cealaltă clasă, va fi, de asemenea, un elev, să-i spunem Albu, care va obține nota 9 și un alt elev, Vasiliu, care va obține nota 7 Având în vedere notele obținute, elevul Ionescu este echivalent cu elevul Albu și elevul Popescu este echivalent cu elevul Vasiliu Referior la achizițiile realizate de elevi respectivi nu este obligatoriu ca notele obținute să le reflecte în mod corect În cazul în care am avea un test de achiziție standardizat și l-am aplica pe elevii noștri nu este exclus ca să apară situații care ni s-ar părea paradoxale, respectiv, elevii cu bote mai mici la teze să se plaseze pe poziții mai bune în ceea ce privește rezultatele la testul standardizat decât elevii 102 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN care au obținut note mari la teză Pe de altă parte, deși notele la teză au fost identice pentru doi elevi, în urma aplicării testului standardizat s-ar putea să nu mai rămână niciun fel de echivalență Din acest exemplu reiese clar necesitatea construirii unor teste care trebuie să efie etalonate și standardizate În procesul etalonării, cotele brute sunt transformate în valori numerice, acestea permițând raportarea scorului individual al unui subiect, obținut în urma aplicării testului, la gruparea sau distribuirea rezultatelor obținute de eșantion Etalonarea presupune, în principiu, două operații (Radu, I , 1991): a) alcătuirea sistemuluide norme sau a tabelului de norme pentru grupul de referință sau eșantionul de subiecți (gruparea sau distribuirea în clase a cotelor brute); b) alcătuirea unui sistem de notare standard în care se convertesc cotele brute ale testului În practica psihodiagnostică întâlnim mai ales două categorii de cote transformate, respectiv: a) cote exprimate, la rândul lor, în decile, centile și cuartile; b) cote standardizate, cele care se bazează pe abaterea standard Prezentăm, mai întâi, prima categorie de cote transformate Sistemul decilajului presupune împărțirea scorurilor sau a datelor brute în 10 grupe sau clase, fiecare dintre ele cuprinzând 10% din efectivul total de subiecți, exprimat, de regulă, prin litera N Deci, dacă numărul total al subiecților incluși în eșantion este de 1000, o decilă va cuprinde 10%, respectiv, 100 de subiecți Sistemul centilajului, extrem de asemănător cu sistemul decilajului, presupune împărțirea în 100 de grupe sau clase, fiecare cuprinzând 1% din efectivul total al subiecților ce au fost incluși în eșantion (N) Este de la sine înțeles că acest sistem se poate aplica în cazul în care valoarea lui N este foarte mare Sistemul cuartilelor presupune împărțirea în 4 clase sau 4 cuartile, fiecare din ele cuprinzând 25% din N, deci din efectivul total al eșantionului Cele 4 cvartile sunt următoarele (M = 50% din N): a) cuartilul superior; b) cuartilul mediu superior c) cuartilul mediu inferior d) cuartilul inferior Folosirea tuturor celor 3 sisteme presupune parcurgerea unor etape asemănătoare, respectiv: 1 aplicarea testului pe întreg eșantionul (N); 2 ordonarea scorurilor sau rezultatelor, de la valoarea cea mai mare sau cea mai mică a performanțelor; 3 stabilirea frecvențelor, adică a numărului de subiecți care obțin aceeași performanță (fa); 4 stabilirea frecvențelor cumulate sau însumate (fc), încât S fc = N Vom încerca să exemplificăm folosind rezultatele obținute la testul Raven Standard, aplicat pe 448 de candidați de la un examen de admitere (Clinciu, A I , 2005) Rezultatele obținute sunt incluse, mai întâi, în tabelul de mai jos: x 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 fa 0 0 1 0 1 3 0 0 1 0 1 0 0 1 0 3 1 2 fc 0 0 1 1 2 5 5 5 6 6 7 7 7 8 8 11 12 14 103 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN x 36 37 38 39 40 41 42 43 44 45 fa 3 4 7 3 2 11 12 15 18 24 fc 17 21 28 31 33 44 56 71 89 113 x 46 47 48 49 50 51 52 53 54 55 fa 20 28 28 36 37 32 29 35 23 28 fc 133 161 189 225 262 294 323 358 381 404 x 56 57 58 59 60 fa 22 13 4 5 0 fc 426 439 443 448 448 Vom proceda, în continuare, folosind rezultatele incluse în acest tabel, la alcătuirea etaloanelor în cuartile și decile (etalonul în centile, așa după cum am mai precizat, este foarte asemănător cu etalonul în decile Etalonul în cuartile Fiecare cuartil cuprinde 25% din N Deci primul cuartil (cel inferior) are înaintea sa 25% din subiecți, adică 112 (448 x 25/100) Căutăm pe șirul frecvențelor cumulate (fc) cea mai apropiată valoare de 112 Aceasta corespunde cotei brute x = 45 În consecință, acest cuartil va cuprinde valorile lui x de la 0 la 45 Cuartilul 2 (mediu inferior) împarte pe din două efectivul, deci are înaintea sa 50% din efectivul subiecților (N), adică 224 (448 x 50/100) Valoarea cea mai apropiată de aceasta este 225 și ea corespunde cotei brute = 49 Drept urmare, cuartilul 2 va cuprinde valorile lui x între 46 și 49 Cuartilul 3 (mediu superior) are înaintea sa 75% din N, adică 336 (448 x 75/100) Valoarea cea mai apropiată este 353 și ea corespunde cotei brute = 53 Deci cuartilul 3 va cuprinde valorile lui x între 50 și 53 În sfârșit, prin diferență, cuartiul 4 x între 54 și 60 Finalmente, etalonul în patru clase (sau cuartile) va arăta în felul următor: Cuartilul Clase Procente Teoretice Cumulate Cuartilul 1 0 - 45 25 25 Cuartilul 2 46 - 49 25 50 Cuartilul 3 50 - 53 25 75 Cuartilul 4 54 - 60 25 100 Etalonul în decile Vor fi folosite tot datele rezultate în urma aplicării testului Raven Primul decil are 10 % din N înaintea sa, deci, 44,8 (448 x 10/100) În urma rotunjirii, se obține 45 Căutând pe șirul frecvențelor cumulate vom găsi valoarea cea mai apropiată, care este 44 și care corespunde cotei brute, respectiv, valorii lui x = 41 Asta înseamnă că primul decil va cuprinde valori ale lui x între 0 și 41 Al doilea decil are 20% din efectivul total al subiecților (N) înaintea sa, ceea ce înseamnă 89,6 (448 x 20/100) și rotunjit, 90 Urmărind pe șirul frecvențelor cumulate, vom vedea că valoarea cea mai apropiată este 89 și ei îi corespunde o valoare a lui x = 44 deci, al doilea decil va cuprinde valori ale lui x între 42 și 44 Așa se procedează și pentru celelalte decile iar, în final, etalonul în decile va arăta în felul următor: 104 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN Decilul Clase Procente Teoretice Cumulate 1 0 - 41 10 10 2 42 - 44 10 20 3 45 - 46 10 30 4 47 - 48 10 40 5 49 10 50 6 50 10 60 7 51 - 52 10 70 8 53 10 80 9 54 - 55 10 90 10 56 - 60 10 100 Al doilea sistem de cote transformate presupune cotele standardizate (Radu, I , 1991), care înseamnă tot împărțirea în clase dar clase normalizate Este vorba tot de un calcul procentual, însă efectivul total al eșantionului nu se împarte în clase sucesive egale (10%, 20% etc ), ci în clase care cuprind procente conturate plecând de la frecvențele distribuției normale Regula este ca numărul claselor să fie un număr impar: 5, 7, sau 9 clase, procentele fiind, desigur, diferite de la un sistem la altul și anume: a) pentru 5 clase: 6,7%; 24,2%; 38,2%; 24,2%; 6,7%; b) pentru 7 clase: 4,8%; 11,1%; 21,2%; 25,8%; 21,2%; 11,1%; 4,8%; c) pentru 9 clase: 4,0%; 6,6%; 12,1%; 17,5%; 19,6%; 17,5%; 12,1%; 6,6%; 4,0% În practică sistemul stanine este cel mai des folosit, de aceea îl vom prezenta și noi mai în detaliu Vom face trimitere tot la rezultatele obținute în urma aplicării testului Raven (Clinciu, A , 2005) Stanina 1 are sub ea 4% din efectiv, deci 17,92 (448 x 4/100), deci, rotunjit, 18 Căutând pe șirul frecvențelor cumulate vom constata că valoarea cea mai apropiată este 17 și acesteia îi corespunde cota brută (valoarea lui x) = 36 Stanina 2 are înaintea ei 10,6 procente din efectiv (4,0% + 6,6%), adică 47,468 (448 x 10,6), ceea ce înseamnă, rotunjit, 47 Căutând pe șirul frecvețelor cumulate, constatăm că cea mai apropiată valoare este 44, căreia îi corespunde cota brută = 41 Stanina 3 are înaintea sa 22,7 procente din efectiv (10,6 + 12,1), adică 101,696 (448 x 22,7/100) și, deci, rotunjit, 102 Căutând pe șirul frecvețelor cumulate, constatăm că cea mai apropiată valoare este 113, căreia îi corespunde cota brută = 45 Ș a m d În final, etalonul va arăta în felul următor: Stanina Clase ’rocente Teoretice Cumulate 1 0 - 36 4,0 4,0 2 37 - 41 6,6 10,6 3 42 - 45 12,1 22,7 4 46 - 48 17,5 40,2 5 49 - 50 19,6 59,8 6 51 - 53 17,5 77,3 7 54 - 55 12,1 89,4 8 56 6,6 96,0 9 57 - 70 4,0 100,0 105 Copyright © DEPARTAMENT ID 2008 BAZELE TEORETICE ALE EVALUĂRII PSIHOLOGICE NICOLAE MITROFAN 1 2 Teme de reflecție/autoevaluare: Arătați cum va arăta etalonul, în cazul în care folosiți o scală cu 5 trepte; Arătați cum va arăta etalonul în cazul în care folosiți o scală cu 7 trepte Pentru ambele întrebări veți face apel tot la rezultatele obținute în urma aplicării testului Raven 1 2 3 4 5 6 7 8 9 Întrebări de autoevaluare: Ce înseamnă revizia testelor ? Prin câte revizii a trecut Bateria de inteligență Stanford-Binet ? Prin câte revizii a trecut Bateria de inteligență WAIS ? Când se impune revizia unui test ? Care sunt etapele elaborării și construirii unui test nou ? Care sunt principalele cerințe în elaborarea unui test nou ? Ce înseamnă reprezentativitatea eșantionului ? Câte categorii de cote transformate cunoașteți ? Care este diferența dintre sistemul decilelor și sistemul centilelor ? 10 Care este specificul sistemului cuartilelor ? 11 Care sunt principalele etape ce trebuie parcurse când folosim oricare dintre cele 3 sisteme 12 Ce înseamnă cote standardizate ? 13 Care este specificul sistemului stanine ? 14 De ce etaloanele bazate pe cote standardizate au un număr impar de clase ? 15 Care este relația dintre frecvența absolută și frecvența cumulată ? BIBLIOGRAFIE: 1 ALBU, M (1998) Construirea și utilizarea testelor psihologice Cluj: Editura Clusium 2 ALBU, M , PITARIU, H (1993) Proiectarea testelor de cunoștințe și examenul asistat de calculator Cluj-Napoca: Editura Casa cărții de știință 3 COHEN, J R , SWERDLIK, E M (2005) Psychological Testing andAssessment An Introduction to Tests andMeasurement McGraw-Hill International Edition 4 CLINCIU, A I (2005) Psihodiagnostic Brașov: Ed Universității „Transilvania” 5 FRIEDENBERG, L (1995) Psychological Testing Design, Analysis, anduse Allyn & Bacon 6 KAPLAN, M R , SACCUZZO, P D (2005) Psychological Testing Principles, Applications, andIssues Thomson Wadsworth 7 MINULESCU, M (2003) Teorie și practică în psihodiagnoză Testarea intelectului București: Editura Fundației România de Mâine 8 RADU, I (coord ) (1991) Metodologie psihologică de analiză a datelor Cluj-Napoca: Editura Sincron 10 STAN, A (2002) Testul psihologic Evoluție, consatrucție, aplicații Iași: Polirom 106 Copyright © DEPARTAMENT ID 2008